MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架

arXiv cs.LG 2026/06/09 04:00 论文

摘要

MetaEvo 提出了一种两阶段框架，用于基于LLM的智能体的持续进化，利用基于偏好的优化来增强原则抽象和用于经验重用的模块化架构，在推理基准测试上优于强基线。

arXiv:2606.07603v1 公告类型：新摘要：大型语言模型（LLMs）展现出强大的推理能力，然而大多数基于LLM的智能体是静态部署的，无法通过任务交互来改进。现有的经验驱动方法通常依赖记忆或启发式方法，而未能增强模型的学习能力，将其视为被动执行者，导致早期性能停滞和长期改进受限。为了解决这个问题，我们提出了MetaEvo，一个两阶段的智能体持续进化框架，专注于改进模型如何从任务经验中学习，而不仅仅是存储什么。MetaEvo首先应用基于偏好的优化来增强模型的原则抽象能力，然后使得这些原则能够在模块化智能体架构中积累和重用。在多样化推理基准上的实验结果表明，MetaEvo一致地优于强基线，并在多次迭代中保持可靠的改进。这些发现验证了元优化在使智能体能够从经验中学习并持续增强其推理能力方面的有效性。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:49

# MetaEvo：一种用于经验驱动智能体进化的元优化框架
来源：https://arxiv.org/html/2606.07603
Bowen Ren¹, Heyan Huang¹,², Yinghao Li¹, Yang Gao¹,²,

¹ 北京理工大学计算机科学与技术学院，北京，中国
² 北京理工大学东南信息技术研究院，莆田，中国
\{bwren\-bit, hhy63, yhli, gyang\}@bit\.edu\.cn

###### 摘要

大型语言模型（LLMs）展现了强大的推理能力，然而大多数基于LLM的智能体是静态部署的，无法通过任务交互来改进。现有的经验驱动方法通常依赖记忆或启发式方法，而没有增强模型的学习能力，将模型视为被动执行者，导致性能早期达到瓶颈且长期提升有限。为解决此问题，我们提出MetaEvo，一个用于智能体持续进化的两阶段框架，其重点在于改进模型如何从任务经验中学习，而非仅仅关注存储什么内容。MetaEvo首先应用基于偏好的优化来增强模型的原则抽象能力，然后在模块化智能体架构中实现这些原则的积累与重用。在多样化推理基准上的实验结果表明，MetaEvo持续优于强基线，并能在迭代过程中保持可靠的性能提升。这些发现验证了元优化在使智能体能够从经验中学习并持续增强其推理能力方面的有效性。

MetaEvo：一种用于经验驱动智能体进化的元优化框架

Bowen Ren¹, Heyan Huang¹,², Yinghao Li¹, Yang Gao¹,²,
¹ 北京理工大学计算机科学与技术学院，北京，中国
² 北京理工大学东南信息技术研究院，莆田，中国
\{bwren\-bit, hhy63, yhli, gyang\}@bit\.edu\.cn

## 1 引言

大型语言模型（LLMs）在广泛自然语言处理任务中展现出强大性能（Brown et al., 2020 (https://arxiv.org/html/2606.07603#bib.bib2)；Touvron et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib3)；Vaswani et al., 2017 (https://arxiv.org/html/2606.07603#bib.bib1)）。然而，大多数基于LLM的智能体是静态部署的，无法积累或重用从过去成功与失败中学习到的知识（统称为经验），导致重复的推理或规划错误（Madaan et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib11)；Shinn et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib10)；Li et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib26)；Gou et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib12)；Yang et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib4)；Chen et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib7)）。近期研究开始探索经验驱动的智能体进化，通过将累积的任务交互数据提炼为结构化和基于记忆的知识，使智能体能够逐步改进其行为并支持持续的自我进化。如图1 (https://arxiv.org/html/2606.07603#S1.F1) 所示，许多现有方法将累积的任务经验表示为高层文字**原则**，这些原则为纠正模型行为提供指导，并在推理时显式注入到上下文中以引导推理和决策（Gao et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib6)；Zhao et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib5)；Cai et al., 2025 (https://arxiv.org/html/2606.07603#bib.bib46)）。

参见说明图1：原则引导生成的实例。虽然这些原则为总结过去错误并指导未来行为纠正提供了一种有效方式，但它们并未持续优化，且质量不稳定，导致在智能体进化过程中LLM主要被当作被动执行者而非主动适配者。根本局限性在于现有方法将经验学习视为静态过程，缺乏优化学习能力本身的机制，这通常导致进化过程中改进有限，无法获得持续的性能提升。

为解决此问题，我们将原则提取过程视为一种可学习、可优化的能力，并将其定义为一种进化的元能力。为此，我们提出MetaEvo框架，将焦点从优化性能结果转向动态增强学习过程。该框架包含两个阶段：用于改进原则抽象的元优化，以及原则积累——一个迭代进化的循环。

具体来说，在第一阶段，我们通过从更强、更抽象的替代方案中提炼见解（即元优化）来增强模型学习如何抽象高质量原则的元能力。为此，我们利用一个能力更强的外部模型构建偏好数据集，然后应用直接偏好优化（DPO）（Rafailov et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib29)）将模型的输出与优选原则对齐。在第二阶段，我们使用经过元优化的模型构建一个原则库，并在推理阶段将其应用于引导生成。通过多次迭代此过程，原则库逐步完善，从而为模型提供越来越有效的指导。

该框架通过一个模块化智能体系统实现，包括**规划**、**记忆**和**执行**模块。在**规划**模块中，为应对当前方法推导出的原则往往过于泛化且与具体推理错误不一致的问题，我们设计了一种对比驱动抽象（CDA）方法，通过对比答案中的细粒度差异，使模型能够生成有针对性且可操作的原则。该模块在MetaEvo的两个阶段均有应用。此外，**记忆**模块维护一个结构化的原则仓库，而**执行**模块负责检索和应用这些原则；这两个模块在第二阶段应用。

我们在多种推理基准上评估MetaEvo，观察到相对于强基线的一致改进，验证了元能力优化的有效性。此外，元能力通过迭代的自我进化实现了持续的性能提升，而非短暂的收益。我们的贡献总结如下：

- • 我们提出MetaEvo，一个包含元优化和原则积累的经验驱动框架，并在多种推理基准上评估其有效性，结果表明它持续优于竞争性基线。
- • 我们引入元优化作为智能体系统的学习范式，表明优化中间能力比直接优化最终输出能带来更有效的自我改进。
- • 我们提出一种对比驱动的原则提取方法CDA，确保推导出的原则直接指向底层策略错误并提供可操作的指导。

## 2 相关工作

### 2.1 经验驱动进化

近期工作探索了通过从经验中持续学习来改进的自我进化智能体（Gao et al., 2025 (https://arxiv.org/html/2606.07603#bib.bib30)）。一条主要研究方向聚焦于识别模型失败并提炼纠正性原则或可重用知识，这些原则通过辅助监督或外部记忆来指导未来行为（Sun et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib15)；Yang et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib4)；Madaan et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib11)）。相关方法通过检索增强推理和基于记忆的提示来增强适应性，使模型在生成时能够引用先前的纠正。其他努力通过结构化经验回放和记忆管理来解决可扩展性问题（Gao et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib6)；Zhao et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib5)；Gong et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib9)；Liu et al., 2025 (https://arxiv.org/html/2606.07603#bib.bib42)；Ouyang et al., 2025 (https://arxiv.org/html/2606.07603#bib.bib43)；Xu et al., 2025a (https://arxiv.org/html/2606.07603#bib.bib44)）。经验驱动进化也已扩展到具身智能体，通过真实世界反馈来改进动作（Li et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib45)）。

另外，元级优化日益受到关注，其中学习过程本身成为改进对象。一些方法引入二级评估器来塑造学习奖励（xiong2025mpoboostingllmagents），而其他方法设计高阶规划机制来推理规划策略（wu2025meta）。这些方法与MetaEvo的总体目标一致，即通过超越直接任务执行来优化模型性能，但MetaEvo使模型能够学习如何推导更好的原则以用于未来的自我改进。

### 2.2 基于记忆的智能体系统

为LLM智能体配备外部记忆已成为实现持续学习、行为适应和长程推理的核心方法。早期研究主要依赖经验回放，存储中间推理步骤或错误反馈对以指导未来决策（Yang et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib4)；Li and Qiu, 2023 (https://arxiv.org/html/2606.07603#bib.bib8)；Gao et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib6)）。与这一方向互补，结构化记忆方法将存储的信息组织成语义或功能结构化的片段，提高了可解释性和检索效率（Zeng et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib23)；Zhao et al., 2024 (https://arxiv.org/html/2606.07603#bib.bib5)）。近期工作将注意力转向记忆管理和进化，以支持长期智能体行为。MemoryBank（Zhong et al., 2023 (https://arxiv.org/html/2606.07603#bib.bib40)）和Task-Core Memory（Huai et al., 2025 (https://arxiv.org/html/2606.07603#bib.bib39)）研究了记忆保留和巩固机制，以缓解持续学习环境中的遗忘。超越静态存储，A-MEM（Xu et al., 2025b (https://arxiv.org/html/2606.07603#bib.bib38)）和Mem0（Chhikara et al., 2025 (https://arxiv.org/html/2606.07603#bib.bib41)）显式建模记忆进化，使智能体能够随时间推移改进和重组存储的知识。

总体而言，这些机制代表了从静态检索式记忆向动态进化的知识架构的范式转变。

参见说明图2：MetaEvo框架流水线示意图。(1) **元优化**：我们首先通过基于偏好的原则学习来训练模型，以增强其核心元能力。(2) **原则积累**：经过增强的模型随后将提炼后的原则集抽象并积累到结构化的**记忆**模块中，该模块可以迭代扩展。在推理时，智能体从记忆中检索最相关的原则来引导最终响应。

## 3 方法

本节介绍MetaEvo，一个实现为模块化智能体系统的元优化框架，通过其三个核心模块（**规划**、**记忆**和**执行**）实现经验驱动和原则引导的进化。相应地，我们首先介绍框架的总体工作流程，然后深入探讨每个组成模块的具体细节。

### 3.1 框架流水线

#### 3.1.1 元优化

在此阶段，我们对基础LLM进行微调以增强其**元能力**，即从经验中学习抽象和内化可操作且有指导性的原则的能力。模型优化的目标不是直接学习解决任务，而是发展对更清晰、更具操作性的纠正性指导原则的偏好，这被形式化为一个关于修订知识的元优化问题。

对于每个查询 \(q_i\)，基础模型首先生成一个初始答案 \(a_i\)。然后，一个原则抽象过程利用 \((q_i, a_i, y_i)\) 来推导一个修订原则。我们执行两次此抽象：一次使用基础模型获得较无指导性的原则 \(p_i^-\)，一次使用能力更强的外部LLM获得优选原则 \(p_i^+\)。这为每个查询产生了一个偏好对 \((p_i^+, p_i^-)\)，形成元优化数据集：

\[
\mathcal{D}_{\text{meta}} = \left\{ \left(q_i, p_i^+, p_i^-\right) \right\}_{i=1}^N.
\tag{1}
\]

我们使用直接偏好优化（DPO）在 \(\mathcal{D}_{\text{meta}}\) 上优化基础模型，它通过最小化期望损失来融入成对偏好监督：

\[
\min_{\theta} \, \mathbb{E}_{(q, p^+, p^-) \sim \mathcal{D}_{\text{meta}}} \left[ \mathcal{L}_{\text{meta}}(\pi_{\theta}; q, p^+, p^-) \right],
\tag{2}
\]

其中 \(\pi_{\theta}\) 表示由 \(\theta\) 参数化的模型。该损失鼓励对优选原则 \(p^+\) 的更高似然性，高于非优选原则 \(p^-\)：

\[
\mathcal{L}_{\text{meta}} = -\mathbb{E}_{(q, p^+, p^-)} \bigg[ \log\sigma\Big( \beta\big( \log\pi_{\theta}(p^+ \mid q) - \log\pi_{\theta}(p^- \mid q) \big) \Big) \bigg],
\tag{3}
\]

其中 \(\sigma(\cdot)\) 是sigmoid函数，\(\beta\) 是温度参数。

此过程产生一个**元增强**的LLM，它具有更强的抽象和内化纠正性原则的能力，为后续的原则积累阶段奠定基础。

#### 3.1.2 原则积累

此阶段的目标是利用经过元优化的模型构建一个丰富且结构化的高质量原则仓库。使用相同的标注数据集，**执行**模块从记忆中检索任务相关原则以指导答案生成，产生一组查询、金标答案和模型生成的响应。然后**规划**模块从这些输出中提取候选原则。

提取的原则被系统性地组织并存储在**记忆**模块中，通常通过其对应任务的语义表示进行索引，从而形成一个面向任务的知识库。

此过程本质上是迭代的。在第一次迭代（\(t=1\)）中，记忆为空，生成过程无指导进行。在第 \(t\) 次迭代时，使用上一次迭代的原则库 \(\text{Mem}_{t-1}\) 进行检索。新生成的原则 \(\mathcal{P}^t_{\text{new}}\) 随后与 \(\text{Mem}_{t-1}\) 合并，产生更新后的记忆 \(\text{Mem}_t\)，作为第 \(t+1\) 次迭代的检索来源。

得益于元优化，模型在每次迭代中逐步识别先前被忽略的问题并生成纠正性原则。随着此过程重复，记忆不断扩展，模型能力稳步提升，从而实现持续进化。

在完成原则积累阶段后，智能体配备了一个结构化的推理原则记忆。对于新的输入，智能体检索最相关的原则并将其整合到模型上下文中，作为可操作的指导来引导最终生成。

MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架

相似文章

EvoMaster：构建可进化大规模自主科学智能体的基础框架

EVOM: 智能体元进化中的Actor-Critic架构强化学习方法

EvoSci：一种受生物启发的多智能体框架，用于科学发现的演化

@dair_ai: // MetaSkill-Evolve // 关于自我改进代理的优秀论文。大多数自我改进代理重写代理所做的并……

EvoArena：追踪记忆演化以实现动态环境中鲁棒的LLM智能体

提交意见反馈