重新思考自进化大语言模型智能体的持续经验内化

arXiv cs.CL 论文

摘要

本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。

arXiv:2606.04703v1 公告类型:新论文 **摘要:** 经验内化将过去交互中的上下文经验转化为可复用的参数化能力,为大语言模型(LLMs)的持续学习提供了一条颇具前景的路径。尽管先前工作主要聚焦于单轮迭代迁移,我们发现在多轮迭代经验学习场景下,现有方法会出现能力渐进式崩溃,而非持续叠加式提升。我们从经验内化的三个关键维度对这一失败现象进行了系统性分析:(1)**经验粒度**:我们发现原则级经验比实例级经验更具持久性,因为它能有效地从轨迹特定细节中抽象出可迁移的策略。(2)**经验注入模式**:分析表明,逐步注入方式通过将经验与中间决策状态对齐,显著优于全局注入方式,这一特性对于长时序工具使用任务尤为关键。(3)**内化机制**:我们证明,基于高质量教师轨迹的离策略上下文蒸馏能够提供比在策略上下文蒸馏更稳定的训练信号,而后者本质上受限于对学生模型所产生的缺陷状态进行局部修正。综合上述洞见,我们提炼出一套简洁而鲁棒的方案,用于实现稳定、可持续的经验内化,为构建自进化、持续学习的大语言模型提供了具体的工程指导。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:17

# 重思自进化大语言模型智能体的持续经验内化

来源:https://arxiv.org/html/2606.04703

Jingwen Chen¹ Wenkai Yang¹¹^(脚注1) Shengda Fan¹ Wenbo Nie² Chenxing Sun³ Shaodong Zheng³ Yangen Hu³ Lu Pan³ Ke Zeng³ Yankai Lin¹

¹中国人民大学高瓴人工智能学院 ²北京航空航天大学软件学院 ³美团

cjw259wen@outlook\.com yankailin@ruc\.edu\.cn

###### 摘要

经验内化将过去交互中的上下文经验转化为可复用的参数化能力,为大语言模型(LLMs)的持续学习提供了一条颇具前景的路径。尽管先前工作主要聚焦于单轮迁移,我们发现在多轮经验学习场景下,现有方法会出现渐进式能力崩溃,而非持续累积提升。我们从经验内化的三个关键维度对这一失效现象展开系统性研究:(1)*经验粒度*:我们发现原则层面的经验比实例层面的经验更为持久,因为它能有效地从轨迹特定细节中抽象出可迁移的策略。(2)*经验注入模式*:我们的分析表明,逐步注入通过将经验与中间决策状态对齐,显著优于全局注入,这一特性对于长时域工具使用尤为关键。(3)*内化机制*:我们证明,基于高质量教师轨迹的离策略上下文蒸馏,相比在策略上下文蒸馏提供了更稳定的训练信号,后者本质上受限于对学生产生的错误状态进行局部修正。综合上述洞见,我们提炼出一套简洁而健壮的方案,用于实现稳定可持续的经验内化,为工程化构建自进化与持续学习的大语言模型提供了具体指导。本工作的代码与数据已发布于 https://github.com/RUCBM/ExpInternalization。

重思自进化大语言模型智能体的持续经验内化

Jingwen Chen¹^(†等贡献) Wenkai Yang¹^(1脚注1) Shengda Fan¹ Wenbo Nie² Chenxing Sun³ Shaodong Zheng³ Yangen Hu³ Lu Pan³ Ke Zeng³ Yankai Lin¹^(†通讯作者)

¹中国人民大学高瓴人工智能学院 ²北京航空航天大学软件学院 ³美团

cjw259wen@outlook\.com yankailin@ruc\.edu\.cn

## 1 引言

参见图注 图1:迭代式在策略上下文蒸馏下的性能退化。

持续学习能力(Wu et al., 2024 (https://arxiv.org/html/2606.04703#bib.bib74); Gao et al., 2025 (https://arxiv.org/html/2606.04703#bib.bib75); Wang et al., 2023 (https://arxiv.org/html/2606.04703#bib.bib8))是构建自主自适应大语言模型智能体的核心要素。为此,从经验中学习(Zhao et al., 2024 (https://arxiv.org/html/2606.04703#bib.bib53); Shinn et al., 2023 (https://arxiv.org/html/2606.04703#bib.bib6); Silver and Sutton, 2025 (https://arxiv.org/html/2606.04703#bib.bib54))提供了一条颇具前景的路径,使大语言模型能够从过去的交互中获取可泛化的知识,并通过后续交互持续改进。上下文学习(ICL)(Dong et al., 2024 (https://arxiv.org/html/2606.04703#bib.bib69); Brown et al., 2020 (https://arxiv.org/html/2606.04703#bib.bib70))是对经验最直接的利用方式,即将经验作为上下文呈现给模型。然而,这一范式受限于上下文容量,且随着经验池的增长容易发生上下文崩溃(Zhang et al., 2025 (https://arxiv.org/html/2606.04703#bib.bib11))。这促使我们研究经验内化(Snell et al., 2022 (https://arxiv.org/html/2606.04703#bib.bib2); Deng et al., 2024 (https://arxiv.org/html/2606.04703#bib.bib71); Ye et al., 2026b (https://arxiv.org/html/2606.04703#bib.bib15); Kujanpää et al., 2024 (https://arxiv.org/html/2606.04703#bib.bib72); Charakornet al., 2026 (https://arxiv.org/html/2606.04703#bib.bib73)),即将依赖上下文的经验利用转化为参数化能力。

近期关于经验内化的工作大多采用在策略上下文蒸馏(Ye et al., 2026b (https://arxiv.org/html/2606.04703#bib.bib15), a (https://arxiv.org/html/2606.04703#bib.bib45); Shenfeld et al., 2026 (https://arxiv.org/html/2606.04703#bib.bib79)),并在单轮内化中取得了优异的性能。然而,现有方法在很大程度上忽视了迭代式经验内化的必要性——而这正是持续学习范式的基石。通过初步研究,我们揭示了一个关键弱点:如图1所示,现有方法无法维持这一自进化过程,随着自进化的推进,性能会出现崩溃。

在本研究中,我们重新思考现有经验内化范式在多轮经验学习中失效的原因。我们将这些失效归因于迁移过程的三个阶段:经验的表示方式、经验如何塑造教师监督,以及用于将相应行为迁移到学生的轨迹分布。

首先,在*经验粒度*方面,我们发现原则层面的经验比实例层面的经验更适合进行内化。通过从轨迹特定细节中抽象出可迁移的策略和失败模式,原则层面的经验提供了更具泛化性的信号,并降低了在多次迭代中强化特定实例行为的风险。

除经验粒度外,我们进一步探究了*经验注入模式*的影响。我们发现,逐步注入通过将相关经验与中间决策状态对齐,优于全局注入。这种状态对齐的经验使用方式在长时域工具使用任务中尤为重要,因为全局注入可能导致模型在后续自进化迭代中无法有效利用新生成的经验。

然而,即使采用原则层面的经验和逐步注入,退化现象仍可能发生,这促使我们进一步审视*内化机制*——即用于迁移经验条件化行为的轨迹分布。我们发现,在策略上下文蒸馏在单轮中能带来显著提升,但无法在多轮迭代中持续保持。由于监督是建立在学生产生的轨迹之上,教师被迫对错误状态进行局部修正,而非提供连贯的经验引导行为示范。相比之下,离策略上下文蒸馏基于高质量的教师生成轨迹进行训练,为经验内化和自进化提供了更稳定的信号。

总体而言,我们从上述三个维度对经验内化进行了系统性研究,并提出了一套可持续内化的简洁方案。这些发现为设计能够跨迭代持续进行经验自进化的大语言模型智能体提供了实践指导。

## 2 相关工作

### 2.1 从经验中学习

##### 基于上下文的经验学习

大语言模型智能体从交互轨迹中积累的经验,为改善智能体行为提供了宝贵资源。近期工作无需参数更新,直接将这些经验作为上下文指导加以复用。这些方法大致可分为存储、反思与抽象三类(Luo et al., 2026 (https://arxiv.org/html/2606.04703#bib.bib4)):保存轨迹以供检索(Zheng et al., 2024 (https://arxiv.org/html/2606.04703#bib.bib5))、通过自我反馈精炼存储的经验(Shinn et al., 2023 (https://arxiv.org/html/2606.04703#bib.bib6); Xu et al., 2026 (https://arxiv.org/html/2606.04703#bib.bib7)),以及将经验泛化为可复用的形式,如技能、策略或经验性知识摘要(Fan et al., 2026a (https://arxiv.org/html/2606.04703#bib.bib20); Zhang et al., 2025 (https://arxiv.org/html/2606.04703#bib.bib11); Cai et al., 2025 (https://arxiv.org/html/2606.04703#bib.bib12))。然而,基于上下文的方法将经验保留为推理时上下文,其收益受限于模型的上下文学习能力,且随着经验的积累容易发生上下文崩溃(Zhang et al., 2025 (https://arxiv.org/html/2606.04703#bib.bib11))。这促使我们研究超越推理时上下文的可持续经验内化。

##### 经验内化

上下文蒸馏(Askell et al., 2021 (https://arxiv.org/html/2606.04703#bib.bib1); Snell et al., 2022 (https://arxiv.org/html/2606.04703#bib.bib2))提供了一种将经验内化到模型参数的方式,通过使无经验的学生与有经验的教师对齐来实现。早期方案通常采用离策略方式(Hinton et al., 2015 (https://arxiv.org/html/2606.04703#bib.bib38); Yang et al., 2025b (https://arxiv.org/html/2606.04703#bib.bib55)),即在教师生成的轨迹上训练学生,但可能存在训练-推理分布不匹配问题(Agarwal et al., 2024 (https://arxiv.org/html/2606.04703#bib.bib14))。因此,近期工作已转向在策略上下文蒸馏(Gu et al., 2024 (https://arxiv.org/html/2606.04703#bib.bib13); Ye et al., 2026b (https://arxiv.org/html/2606.04703#bib.bib15); Zhao et al., 2026b (https://arxiv.org/html/2606.04703#bib.bib28); Yang et al., 2026 (https://arxiv.org/html/2606.04703#bib.bib36); Hou et al., 2026 (https://arxiv.org/html/2606.04703#bib.bib56); Fu et al., 2026 (https://arxiv.org/html/2606.04703#bib.bib57); Li et al., 2026 (https://arxiv.org/html/2606.04703#bib.bib80)),对从学生采样的轨迹进行监督,以提高分布一致性。然而,现有工作聚焦于单轮迁移,多轮迭代内化的稳定性尚未得到充分探索。我们通过研究跨自进化周期的可持续经验内化来填补这一空白。

### 2.2 自进化大语言模型智能体

自进化大语言模型智能体是指通过利用交互数据、反馈信号和自生成经验来迭代改进其行为的智能体系统(Tao et al., 2024 (https://arxiv.org/html/2606.04703#bib.bib39); Fang et al., 2025 (https://arxiv.org/html/2606.04703#bib.bib40))。现有工作在策略层面和组件层面均探索了自进化机制。策略层面的方法(Huang et al., 2025 (https://arxiv.org/html/2606.04703#bib.bib41); Zhao et al., 2026a (https://arxiv.org/html/2606.04703#bib.bib42); Fan et al., 2026b (https://arxiv.org/html/2606.04703#bib.bib3))从交互轨迹和反馈中更新智能体模型,而组件层面的方法(Xu et al., 2026 (https://arxiv.org/html/2606.04703#bib.bib7); Liu et al., 2025 (https://arxiv.org/html/2606.04703#bib.bib43))则演化外部结构,如记忆、工具、技能或经验库。近期工作进一步将模型训练与经验演化在闭环中结合(Xia et al., 2025 (https://arxiv.org/html/2606.04703#bib.bib44); Ye et al., 2026a (https://arxiv.org/html/2606.04703#bib.bib45)),迭代地从经验池中训练,并以更新后的模型轨迹刷新经验池。有效的基于经验的自进化需要经验演化与模型改进在多轮中相互促进。因此,我们研究如何通过经验表示和内化来强化这一闭环,并支持后续的策略改进。

## 3 形式化定义

我们对持续经验内化进行形式化定义,并引入分析中使用的符号。

##### 智能体轨迹与经验池

遵循 ReAct(Yao et al., 2022 (https://arxiv.org/html/2606.04703#bib.bib67))的范式,智能体策略 $\pi_\theta$ 通过交替进行推理和动作步骤与环境交互,其中 $\mathcal{A}$ 表示动作空间。给定用户查询 $x$,在每个时间步 $t$,智能体基于历史记录 $\mathcal{H}_{t-1}$ 生成思考 $\tau_t$ 和动作 $a_t \in \mathcal{A}$,其中 $a_t$ 为工具调用或终止答案。工具调用返回观测值 $o_t$,形成轨迹 $\mathcal{H}_T = \big(x, (\tau_1, a_1, o_1), \ldots, (\tau_T, a_T, o_T)\big)$,并由任务级奖励 $r(\mathcal{H}_T)$ 进行评估。遵循先前关于经验提取的工作(Cai et al., 2025 (https://arxiv.org/html/2606.04703#bib.bib12)),除非特别说明,我们使用 DeepSeek-V4(DeepSeek-AI, 2026 (https://arxiv.org/html/2606.04703#bib.bib78))将轨迹总结为自然语言经验,并将得到的经验池记为 $\mathcal{E} = \{e_1, \ldots, e_N\}$。

##### 经验蒸馏

经验内化将有经验的教师 $\pi_T$ 蒸馏到无经验的学生 $\pi_\theta$ 中。教师在构建监督时可以访问注入的经验 $\mathcal{E}_t \subseteq \mathcal{E}$,而学生在部署时无需依赖经验。为简洁起见,令 $h_{t-1} = \mathcal{H}_{t-1}$,$p_t = \pi_T(\cdot \mid h_{t-1}, \mathcal{E}_t)$,$q_t = \pi_\theta(\cdot \mid h_{t-1})$。我们考虑两种内化机制。

在**离策略上下文蒸馏**中,轨迹由教师生成,学生通过前向 KL 散度匹配教师分布:

$$\mathcal{L}_{\mathrm{off}}(\theta) = \mathbb{E}_{\mathcal{H} \sim \pi_T} \sum_{t=1}^{T} D_{\mathrm{KL}}\!\left(p_t \,\|\, q_t\right). \tag{1}$$

在**在策略上下文蒸馏**中,轨迹由学生生成,教师对学生产生的状态以反向 KL 散度进行监督:

$$\mathcal{L}_{\mathrm{on}}(\theta) = \mathbb{E}_{\mathcal{H} \sim \pi_\theta} \sum_{t=1}^{T} D_{\mathrm{KL}}\!\left(q_t \,\|\, p_t\right). \tag{2}$$

参见图注 图2:经验粒度对 Qwen3-4B-Instruct-2507 在迭代式在策略上下文蒸馏下的影响。虚线分别表示基线性能和上下文性能。

##### 持续经验内化

为研究单次更新之外的经验内化,我们考虑以 $k = 0, 1, \ldots, K$ 为索引的迭代过程。在第 $k$ 轮迭代中,当前策略 $\pi_{\theta^{(k)}}$ 与环境交互并产生轨迹 $\mathcal{D}^{(k)} = \{\mathcal{H}_i^{(k)}\}$。这些轨迹被总结为经验池 $\mathcal{E}^{(k)}$。同一策略在以 $\mathcal{E}^{(k)}$ 为条件时,充当下一个无经验学生 $\pi_{\theta^{(k+1)}}$ 的有经验教师:

$$\theta^{(k+1)} = \operatorname{Internalize}\big(\theta^{(k)}, \mathcal{E}^{(k)}\big). \tag{3}$$

这一闭环体现了持续经验学习的潜力:智能体可以在策略演化过程中将积累的经验转化为可复用的能力。因此,经验内化不仅应通过单轮收益来评估,还应衡量这些收益能否在多轮迭代中持续维持。

##### 经验内化的维度

在该框架中,我们研究影响持续经验内化的三个维度。*经验粒度*指定经验池 $\mathcal{E}^{(k)}$ 的抽象层级。实例层面的经验保留了轨迹特定细节

相似文章

从存储到经验:大语言模型智能体记忆机制演进综述

Hugging Face Daily Papers

本综述论文提出了一种大语言模型(LLM)智能体记忆机制的演进框架,将其发展划分为三个阶段:存储、反思和经验。文章分析了长程一致性和持续学习等核心驱动力,旨在为下一代智能体的设计提供指导原则。

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

Hugging Face Daily Papers

# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,

从历史到状态:面向 LLM 智能体的恒定上下文技能学习

arXiv cs.AI

本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。