EvoTest:面向自我改进智能体系统的进化式测试时学习
摘要
EvoTest 引入了 J-TTL,一个衡量智能体测试时学习能力的基准,并提出了一个进化框架,其中 Actor 智能体玩游戏,而 Evolver 智能体在不进行微调的情况下迭代改进系统的提示、记忆和超参数。该方法在基于复杂文本的游戏中表现出优于基于反思和记忆的基线方法的性能。
查看缓存全文
缓存时间: 2026/04/20 08:33
# EvoTest:面向自我改进智能体的进化式测试时学习
来源:https://arxiv.org/html/2510.13220
Yufei He¹, Juncheng Liu², Yue Liu¹, Yibo Li¹, Tri Cao¹, Zhiyuan Hu¹², Xinxing Xu¹², Bryan Hooi¹
¹新加坡国立大学
²微软研究院
联系方式:{yufei.he, yliu, liyibo, zhiyuan_hu}@u.nus.com, [email protected], [email protected], {juncheng.liu, xinxingxu}@microsoft.com
*本工作完成时作者在微软亚洲研究院(新加坡)实习。
†通讯作者。*
###### 摘要
当前AI智能体的一项根本局限在于无法在测试时即时学会复杂技能,在新环境中常常表现得像“聪明但无知的新实习生”。这严重限制了它们的实际应用价值。为系统衡量并推动这一挑战的进展,我们首先引入**Jericho测试时学习(J-TTL)**基准。J-TTL是一种新的评估设置:智能体必须连续多次玩同一款游戏,尝试从一次尝试到下一次尝试提升表现。在J-TTL上,我们发现现有的适应方法(如反思、记忆或强化学习)存在困难。为应对基准提出的挑战,我们提出**EvoTest**¹——一种进化式测试时学习框架,无需微调或梯度即可改进智能体——通过在每次尝试后进化整个智能体系统。EvoTest包含两个角色:**执行智能体(Actor Agent)**负责玩游戏;**进化智能体(Evolver Agent)**分析游戏过程记录,为下一次运行提出修订后的配置。该配置重写提示词、通过记录有效状态-动作选择更新记忆、调整超参数,并学习工具使用惯例。在我们的J-TTL基准上,EvoTest持续提升性能,不仅超越基于反思和记忆的基线方法,也超越更复杂的在线微调方法。值得注意的是,我们的方法是唯一能够赢得两款游戏(Detective和Library)的方法,而所有基线方法均未能赢下任何一款。
## 1 引言
追求真正自主智能体的关键在于一种人类核心能力:“即时学习”的能力(Maes, 1993; Franklin and Graesser, 1996)。面对新任务时,人类可以尝试、反思成功与失败、制定更好的策略,然后再次尝试。相比之下,大多数AI智能体在部署时拥有固定策略,表现得像“聪明但无知的新实习生”,能够执行指令,却无法从经验中改进自身流程(Huang et al., 2024; Talebirad and Nadiri, 2023; Wang et al., 2024; 2025; Hou et al., 2023)。这一差距严重限制了它们在动态环境中的可靠性。尽管领域内承认这一问题,但由于缺乏专门衡量智能体快速会话内改进能力的标准化测试平台,进展一直受阻(Zhou et al., 2023; Mialon et al., 2023; He et al., 2025a; 2024; 2026; Li et al., 2026; Yang et al., 2026; Sui et al., 2024a)。为解决这一问题,我们首先引入**Jericho测试时学习(J-TTL)**基准,这是一种新的评估框架,旨在系统衡量并推动即时智能体学习的进展。该基准的核心任务很简单:智能体必须连续多次(“尝试”)玩同一款复杂的文本冒险游戏(Hausknecht et al., 2020)。在每次尝试中,智能体通过标准循环与环境交互:接收周围环境的文本观察(状态)、提交自然语言指令(动作),并收到数值分数变化(奖励)。这些游戏对LLM智能体来说非常困难,因为它们包含复杂谜题、长期规划、稀疏奖励(许多关键动作不会得分)以及不可逆后果(一个错误操作就可能导致游戏无法获胜)。智能体的目标分为两个层次:1)**尝试目标**:在单局游戏中最大化最终分数。2)**学习目标**:反复玩同一游戏,并仅使用该次会话内积累的经验,从一次尝试到下一次尝试逐步提高最终分数。
J-TTL基准鲜明地揭示了现有适应范式的不足。考虑游戏Detective中一个简单但关键的失败:智能体因重复尝试无效动作(如GO WEST)而陷入导航循环,游戏拒绝并回复“You can't go that way.”。这个看似简单的失败揭示了当前适应方法的深层缺陷:
- **静态智能体**没有学习机制,可能每次尝试都重复该错误,导致分数低且无进步。
- **在线SFT智能体**在这次失败尝试中没有任何好的数据可以学习。它被困住了,因为它无法生成自己用于改进所需的数据。
- **在线强化学习(RL)智能体**因无效动作获得奖励=0,这在稀疏奖励环境中是微弱的信号。基于这一噪声信号的单次更新不足以纠正策略,暴露出信用分配失败。
- 基于**反思**的方法(如Reflexion (Shinn et al., 2023))通过用过去失败的摘要修改智能体的提示词。虽然有用,但并未改变智能体的核心决策逻辑或其工具使用方式。
- 类似的,先进的**记忆系统**(Packer et al., 2023; Zhong et al., 2024)增强了智能体回忆信息的能力,但并未教会它如何采取不同行动。
另一方面,强化学习和在线微调从根本上不适合测试时学习场景。这些方法对于J-TTL所要求的快速学习来说过于缓慢且数据效率低下。
为应对基准提出的挑战,我们引入**EvoTest**,一种无需微调即可实现快速、整体适应的进化式测试时学习框架。EvoTest将行动与适应解耦为两个不同角色:**执行智能体**完整玩完一局,**进化智能体**在独立尝试之间改进系统。每次尝试后,进化智能体分析完整记录,并为整个智能体系统提出修订后的配置。这种全系统进化过程包括:
1. **重写引导提示词**以编码新策略;
2. **更新结构化部署时记忆**,记录成功和失败的动作;
3. **调整决策超参数**如温度和探索强度;
4. **优化工具使用惯例**,控制何时以及如何访问记忆或Python代码。
通过进化智能体配置,EvoTest将一次尝试的叙事转化为下次尝试的多方面改进,实现了比先前方法更深入的学习。
我们的贡献总结如下:
- **● 测试时学习基准**:我们提出J-TTL基准,使用Jericho游戏来衡量智能体在连续多次玩同一游戏时的即时学习能力。
- **● 测试时学习算法**:我们提出EvoTest,一种进化式智能体学习框架,通过记录级分析(无需梯度或微调)进化整个智能体系统(策略、记忆、工具使用惯例和超参数)。
- **● 最先进的经验结果**:我们在J-TTL基准上证明,EvoTest相比最强的提示进化基线提升38%,相比在线RL提升57%,在所有游戏上优于所有基于反思、基于记忆和基于梯度的强基线方法。
## 2 相关工作
**从静态智能体到测试时学习。** 当前大多数AI智能体虽然具备能力,但以静态配置运行,这些配置在部署后手动设计并固定(Wang et al., 2024; Xi et al., 2025; He et al., 2025b; Chen et al., 2025b; a; He et al., 2025c; d; Chen et al., 2025c)。这限制了它们适应新情况的能力,这正是推动“自我改进AI智能体”发展的关键挑战(Gao et al., 2025b; Fang et al., 2025; Gao et al., 2025a; Sui et al., 2025; 2024b; Liu et al., 2025b)。一系列重要工作使智能体能够从过去错误中学习而无需更新权重。Reflexion (Shinn et al., 2023)是我们工作的关键基线,它允许智能体口头反思轨迹失败,并将这些反思附加到后续尝试的提示词中。其他方法侧重于增强智能体记忆。例如,MemGPT (Packer et al., 2023)为智能体提供结构化记忆系统以管理长上下文。除反思/记忆外,Uncertainty of Thoughts (Hu et al., 2024)增加了测试时不确定性感知规划,决定何时询问、验证或修订,无需权重更新。MemoryBank (Zhong et al., 2024)使用层次化总结来在长交互中保留信息。
**自我进化智能体系统。** 另一个活跃研究领域是引导智能体行为的提示词的自动优化(Liu et al., 2025a; Zhu et al., 2026; Hu et al., 2026)。生成式方法如APE (Zhou et al., 2022)和OPRO (Yang et al., 2023)使用强大的LLM提出并评分新提示词,基于性能迭代优化。梯度启发的方法如TextGrad (Yuksekgonul et al., 2024)使用LLM生成的文本反馈来优化提示词。与我们工作密切相关的是进化方法,如AlphaEvolve (Novikov et al., 2025)、Promptbreeder (Fernando et al., 2023)和EvoPrompt (Guo et al., 2024),它们维护一组提示词种群,并应用变异和交叉等遗传操作符来发现更有效的指令。EvoTest将提示词进化推广到全系统进化,优化整个智能体配置——包括提示词、记忆、超参数和工具使用惯例。这使得能够进行更全面的适应,例如调整探索强度,而这超出了仅编辑提示词的范围。这一统一优化的愿景与EvoAgent (Yuan et al., 2024)和MASS (Zhou et al., 2025)共享;Beyond ‘Aha!’ (Hu et al., 2025)通过对齐元能力而非仅任务提示词或单一组件对此进行了补充。
(见图)
**图1:** EvoTest架构,旨在实现**测试时学习**(TTL)。智能体在多次尝试同一任务时持续运行“行动-进化”循环。每次尝试后,进化智能体分析完整轨迹记录——丰富的叙事反馈——对智能体整个配置执行无梯度、**全系统进化**。这使得智能体系统能够在测试时直接根据自身经验即时自我改进。
## 3 Jericho测试时学习(J-TTL)基准
为系统衡量并推动即时智能体学习的进展,我们引入**Jericho测试时学习(J-TTL)**基准。该基准基于Jericho (Hausknecht et al., 2020)¹¹的交互式小说(IF)游戏套件。IF游戏是完全基于文本的模拟环境,智能体通过输入文本命令来改变环境并推进故事。虽然这些环境的丰富性使其成为AI具有挑战性的测试平台,但现有评估主要关注单次尝试表现或跨不同游戏的泛化能力(Hausknecht et al., 2020; Gulcehre et al., 2020; Li et al., 2025)。J-TTL基准将评估重新聚焦于另一个关键维度:智能体通过在单次测试会话内反复尝试同一复杂任务来学习和改进其策略的能力。
**数据集。** 我们使用公开可用的Jericho游戏,它们在难度和解谜结构上各不相同,包括Detective、Library、Zork1、Zork3、Balances和Temple。游戏通过Jericho以默认评分启动。每次尝试受步数限制(除非特别说明,T=110)。
**Jericho游戏。** 我们将Jericho游戏(Hausknecht et al., 2020)建模为部分可观测马尔可夫决策过程(POMDP),由元组 (S, A, T, R, Ω, T) 定义。其中S是潜在状态空间,A是自然语言指令的(无限)组合动作空间。每一步t,处于潜在状态st ∈ S的智能体采取动作at ∈ A,导致状态转移到st+1 ∼ T(·|st, at),并获得标量奖励rt = R(st, at)。智能体无法观测真实状态st,而是接收文本观测ot ∼ Ω(·|st)。一次尝试是一个有限视野T步的交互轨迹:
τ(e) ≜ (o1(e), a1(e), r1(e), ..., oT(e), aT(e), rT(e))。 (1)
尝试e的总收益为奖励之和:R(e) ≜ ∑_{t=1}^T rt(e)。
**测试时学习**相似文章
EvoMaster:构建可进化大规模自主科学智能体的基础框架
# 论文页面 - EvoMaster:构建可进化大规模自主科学智能体的基础框架 来源:[https://huggingface.co/papers/2604.17406](https://huggingface.co/papers/2604.17406) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 EvoMaster 是一个可扩展、自我进化的智能体框架,专为大规模科学发现设计,支持在实验周期中迭代优化假设并持续积累知识。大语言模型与智能体的融合正在催生“智能体科学”新时代。
EvoMap/evolver
Evolver 是一个由 GEP 驱动的 AI 代理自演化引擎,可自动化提示词优化并创建可审计、可复用的演化资产。该项目正从完全开源过渡到源代码可用,同时保持与现有 MIT 和 GPL-3.0 版本的向后兼容性。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
EvoScientist:面向端到端科学发现的多智能体进化AI科学家
EvoScientist 是一个用于端到端科学发现的自适应多智能体框架,通过持久化记忆模块持续改进,由三个专业智能体组成,分别负责创意生成、实验执行和知识提炼。它在科学创意生成方面超越了7个当前最先进的系统,并通过多智能体进化提升了代码执行成功率。
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。