@dair_ai:// 驾驭智能体进化 // 如果你运行迭代式智能体搜索循环,请注意这一点。(收藏它)一……
摘要
AEvo 是一个元编辑框架,通过将提议和评估分为两个角色,并利用累积的记忆指导未来搜索,改进了迭代式智能体搜索。它在开放式优化任务上相比基线实现了26%的相对提升,并取得了最先进的结果。
查看缓存全文
缓存时间: 2026/05/14 20:43
// 驾驭智能体进化 // 如果你运行迭代式智能体搜索循环,请关注这一点(收藏它)。AEvo 将自我改进循环拆分为两个任务:
一个任务提出下一个候选方案。
另一个任务观察哪些有效、哪些失败,并编辑提出未来候选方案的程序。
过去的运行记录(候选方案、反馈、轨迹、失败)成为元智能体读取的记忆。
在智能体和推理基准测试中,相比最强的进化基线实现了 26% 的相对提升。在相同的迭代预算下,三个开放式优化任务上达到最先进水平。
如果你积累了从未使用的智能体搜索日志,这正是将它们反馈回搜索过程本身的方法。
论文:https://arxiv.org/abs/2605.13821
在我们的学院中学习构建有效的 AI 智能体:https://academy.dair.ai
驾驭智能体进化
来源:https://arxiv.org/html/2605.13821
Jiayi Zhang¹², Yongfeng Gu², Jianhao Ruan¹², Maojia Song³, Yiran Peng², Zhiguang Han⁴, Jinyu Xiang¹, Zhitao Wang⁵, Caiyin Yang⁶, Yixi Ouyang², Bang Liu⁷, Chenglin Wu²,†, Yuyu Luo¹,†
¹香港科技大学(广州),²DeepWisdom,³新加坡科技设计大学,⁴南洋理工大学,⁵上海交通大学,⁶清华大学,⁷蒙特利尔大学 & Mila
摘要
智能体进化已成为一种强大的范式,通过迭代生成候选方案、评估它们并利用反馈指导未来搜索,从而改进程序、工作流和科学解决方案。然而,现有方法通常要么被实例化为固定的手工设计程序(模块化但僵化),要么被实例化为通用智能体(灵活整合反馈,但在长跨度进化中可能发生漂移)。两种形式都会随时间积累丰富的证据,包括候选方案、反馈、轨迹和失败,但缺乏一个稳定的界面来组织这些证据并修改驱动未来进化的机制。我们通过将智能体进化构建为一个交互式环境来解决这一限制,其中累积的进化上下文作为过程级状态。我们引入了 AEvo,一个受约束的元编辑框架,其中元智能体观察该状态,并通过编辑控制未来进化的程序或智能体上下文来行动,而不是直接提出下一个候选方案。这种统一接口使 AEvo 既能引导基于程序的进化,也能引导基于智能体的进化,使累积的证据可作用于长跨度搜索。在智能体和推理基准测试上的实证评估表明,AEvo 优于五种进化基线,相对于最强基线实现了 26% 的相对提升。在三个开放式优化任务中,AEvo 进一步优于四种进化基线,并在相同迭代预算下达到了最先进的性能。
1 引言
智能体进化将基于 LLM 的问题解决重新构建为构建和修改解决方案的过程 [16, 7]。这些方法不是仅仅将模型视为候选答案的生成器,而是使用 LLM、智能体工作流或编码智能体来驱动迭代改进:生成候选产物、解释评估反馈,并影响系统接下来探索什么 [22]。这一范式已应用于程序合成 [10]、科学发现 [17, 38]、系统优化 [25, 6] 和智能体自我改进 [41, 27, 23]。在本文中,我们使用“智能体进化”来广泛指代搜索行为由结构化智能体程序或通用智能体驱动的进化过程。
现有的智能体进化方法通常以两种方式实例化这一范式。在基于程序的进化中,一个预定义的外部循环控制着父代选择、候选生成、评估和种群更新 [18, 36, 42]。这使得进化模块化且可重复,但也将长跨度搜索局限于固定的选择规则、反馈总结和更新启发式方法。在基于智能体的进化中,一个通用智能体通过观察反馈、检查轨迹、编辑候选方案、编写工具和决定下一步尝试什么来管理搜索过程 [11, 22]。这赋予了进化更大的灵活性,但随着候选方案、日志、假设和中间文件的累积,智能体可能会发生漂移。
在这两种情况下,长跨度进化仍然容易陷入局部最优:程序可能反复利用相同的、手工设计的搜索模式,而智能体可能在不断增长的上下文中过度承诺于误导性证据或过时的假设。最近的工作试图通过扩大协作智能体的探索范围 [22] 或使进化机制自修改 [41] 来解决这些局限性。这些方向表明更强的搜索上下文和可编辑的改进机制是有用的,但它们本身并未为长跨度进化提供稳定的界面。核心挑战在于,进化会随时间积累候选方案、反馈、轨迹、失败和中间决策,但缺乏一种统一的方式来组织这些证据并修改驱动未来进化的机制。
图 1:将智能体进化作为交互式环境。(a) 基于程序的进化运行固定循环进行选择、优化、评估和更新。(b) 基于智能体的进化让通用智能体通过反馈、工具、技能和代码动作来管理搜索。(c) AEvo 将进化过程视为交互式环境。累积的进化上下文成为过程级状态,而元智能体编辑控制未来进化的底层程序或智能体操作上下文。
我们通过将智能体进化构建为一个交互式环境来应对这一挑战。如图 1 所示,这种观点将进化从一个非结构化的迭代过程转变为一个暴露过程级状态并支持外部干预的环境。状态是累积的进化上下文,包括候选方案、反馈、轨迹、失败、成本和搜索历史。转换机制是当前的进化机制:要么是一个显式的搜索程序,要么是塑造通用智能体未来决策的操作上下文。元智能体在这个环境上行动的方式不是生成下一个候选方案,而是编辑控制未来进化如何进行的机制。这使得相同的环境视图适用于手工设计的程序和通用进化智能体。
实现这一视图需要一个受约束的设计。进化环境是庞大、嘈杂且不断变化的。如果没有稳定的界面,元智能体可能会丢失可靠证据、重试旧尝试或做出难以验证效果的编辑。同时,评估和候选记录必须保持受到保护,不与修改进化过程的智能体接触。这些挑战激发了一个使进化可观察、可编辑和由外部管理的约束框架。
因此,我们引入了 AEvo,一个用于元编辑智能体进化的受约束框架。AEvo 标准化了进化工作区,保护了评估器,将每个评估过的候选方案记录到可搜索的历史中,并向元智能体暴露过程级信息。然后它通过一个两阶段循环运行进化。在元编辑阶段,元智能体编辑当前机制并指定下一阶段应如何运行。在进化分段中,更新后的机制在此计划下运行并产生多个候选方案,然后才进行下一次元智能体干预。同一个循环可以修改基于程序和基于智能体的进化,从而降低陷入局部最优的风险。
我们的贡献有三方面:
- 环境形式化:我们将智能体进化构建为交互式环境,其中累积的进化上下文成为过程级状态,元动作编辑驱动未来进化的机制。
- 受约束的元编辑:我们引入了 AEvo,一个用于元编辑智能体进化的受约束框架,该框架保护评估、记录评估过的候选方案,并通过元编辑阶段和进化分段支持粗粒度干预。
- 跨形式实例化与评估:我们在基于程序和基于智能体的进化上都实例化了相同框架,表明 AEvo 可以修改显式程序组件或智能体操作上下文。在标准的智能体和推理基准测试上,AEvo 优于五种进化基线,相对于最强基线实现了 26% 的相对提升。在三个开放式优化任务上,AEvo 优于四种进化基线,并在相同迭代预算下达到了最先进的性能。
2 相关工作
智能体进化。 越来越多的工作使用 LLM 和智能体通过生成、反馈和修订来迭代改进产物 [15, 14, 13, 28]。提示方法优化语言模型程序或反馈驱动的提示,包括 DSPy [12]、SPO [30]、TextGrad [37] 和 GEPA [1]。另一条研究线关注智能体系统和工作流的自动化设计与进化,例如 ADAS [9]、Darwin Gödel Machine [40]、Huxley-Gödel Machine [27]、AFlow [42]、RobustFlow [32] 和 SkillRL [29]。最近的开放式发现系统进一步将进化搜索应用于科学和算法发现,包括 AlphaEvolve [18]、OpenEvolve [24]、TTS-Discover [38]、CORAL [22]、SimpleTES [36] 和 ASI-Evolve [33]。然而,它们的搜索行为通常要么由固定程序控制,要么由直接管理候选生成的智能体控制。相比之下,AEvo 将进化过程本身视为一个交互式环境,并研究如何引导控制未来搜索的机制。
智能体元进化。 早期的元学习工作表明学习规则本身可以被优化,例如通过学习循环强化学习动态 [26] 或进化策略梯度目标 [8]。最近的智能体系统将这一思想扩展到可编辑的智能体程序和记忆系统。HyperAgents 研究自指智能体程序,其中任务求解行为和元改进机制都可以被修改 [41]。MemEvolve 和 ALMA 类似地探索了智能体记忆设计上的元进化 [39, 31]。与 HyperAgents 将元改进内化到自修改智能体程序中不同,AEvo 将智能体进化视为一个通过外部约束框架观察和编辑的交互式环境,涵盖手工设计的程序和通用智能体,同时保持评估和候选记录由外部管理。
3 问题形式化
3.1 智能体进化
我们将智能体进化形式化为一个通过重复改进轮次优化产物的过程。令 (x \in \mathcal{X}) 表示被优化的对象,例如程序、提示、工作流、技能、工具或智能体组件。我们用 (r) 索引进化轮次。每一轮产生一个轮次上下文 (c_r),包含该轮生成的候选方案、它们的评估结果、执行轨迹、失败、成本以及在优化过程中产生的任何中间信息。经过 (r) 轮后累积的进化上下文记为 (\mathcal{C}r = (c_1, c_2, \ldots, c_r))。最后,令 (\Pi) 表示推进进化的优化机制:
[
c_r = \Pi(\mathcal{C}{r-1}), \qquad \mathcal{C}r = \mathcal{C}{r-1} \oplus c_r,
]
其中 (\oplus) 将新产生的轮次上下文追加到累积的进化上下文中。(\Pi) 不必是固定算法;它也可以是一个读取历史、推理反馈并决定如何生成下一个候选方案的智能体过程。因此,(\Pi) 代表了从当前进化上下文继续搜索的机制。
在此形式化下,现有的智能体进化方法主要区别在于 (\Pi) 的实例化方式。在基于程序的进化中,(\Pi) 是一个预定义的外部循环,其行为主要由选择和优化决定:选择规则从 (\mathcal{C}{r-1}) 中选择之前的候选方案或上下文,而优化算子从所选信息中生成新的候选方案。评估为生成的候选方案分配分数、轨迹和反馈,为未来的选择和更新提供信号。在基于智能体的进化中,(\Pi) 由一个通用智能体实现。智能体不是遵循固定的选择和优化规则,而是读取累积的上下文 (\mathcal{C}{r-1}) 并决定下一步做什么,例如检查反馈、比较候选方案、修改产物、编写工具或生成新的尝试。因此,基于程序的进化明确但僵化地指定了搜索控制,而基于智能体的进化将搜索控制隐含在智能体基于上下文的行为中。
在这两种情况下,进化通过重复应用 (\Pi) 并累积上下文 (\mathcal{C}_r) 来进行。该上下文不仅记录了进化产生的候选方案,还通过评估结果、轨迹、失败、成本和中间产物记录了搜索如何展开。下一小节利用这个累积的上下文来定义进化的环境视图。
3.2 进化作为交互式环境
我们将进化过程本身视为一个面向元智能体的交互式环境。在第 (r) 轮,该环境的状态由轮次索引和累积的进化上下文定义:
[
s_r = (r, \mathcal{C}_r).
]
当优化机制可能在不同轮次之间变化时,我们将当前机制记为 (\Pi_r)。该机制指定
相似文章
EvoMaster:构建可进化大规模自主科学智能体的基础框架
# 论文页面 - EvoMaster:构建可进化大规模自主科学智能体的基础框架 来源:[https://huggingface.co/papers/2604.17406](https://huggingface.co/papers/2604.17406) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 EvoMaster 是一个可扩展、自我进化的智能体框架,专为大规模科学发现设计,支持在实验周期中迭代优化假设并持续积累知识。大语言模型与智能体的融合正在催生“智能体科学”新时代。
EvoMap/evolver
Evolver 是一个由 GEP 驱动的 AI 代理自演化引擎,可自动化提示词优化并创建可审计、可复用的演化资产。该项目正从完全开源过渡到源代码可用,同时保持与现有 MIT 和 GPL-3.0 版本的向后兼容性。
AEM:用于多轮智能体强化学习的自适应熵调制
本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。
PACEvolve++:提升进化搜索代理的测试时学习能力
本文介绍了 PACEvolve++,这是一种强化学习框架,通过将假设生成与执行解耦,提高了进化搜索代理在测试时的策略适应能力。
大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子
作者分享了他为识别和评估公司内 AI 用例而构建的智能体研究系统的实际分解。该系统使用六个智能体进行发现、评估和上下文提取,强调人在决策环中,而非完全自主。