ExpGraph:面向LLM智能体的模型无关经验学习与图结构记忆

arXiv cs.CL 论文

摘要

ExpGraph是一个模型无关的框架,通过自进化的技能与失败经验图,使LLM智能体能够复用过往经验,在不重新训练执行器的情况下将任务性能提升12%-21%。

arXiv:2605.30712v1 公告类型:新增 摘要:大型语言模型(LLM)智能体在推理、工具使用和多步交互方面表现出强大能力,但它们通常从头开始解决任务,未能复用先前经验中的成功策略或失败教训。对收集的经验进行微调可以改善复用,但当出现更强或更合适的执行器时,这种方式缺乏灵活性。我们提出ExpGraph,一种模型无关的经验学习框架,使得冻结且可替换的LLM执行器能够通过外部经验复用来提升性能,无需更新参数。ExpGraph将历史轨迹总结为可复用的技能和失败教训,将其组织为自进化经验图中的节点,并通过图扩散和效用感知排序检索有用的经验。利用奖励反馈(比较执行器在有/无检索经验时的表现)通过强化学习训练一个轻量级检索副驾驶员,同时根据下游任务结果在线更新图结构。我们在ExpSuite上评估ExpGraph,涵盖问答、数学推理、代码生成以及多步智能体环境(包括ALFWorld和AppWorld)。ExpGraph在静态任务上,对于较小和较大的执行器,分别比最强基线提升12.2%和4.7%;在智能体环境中提升21.4%和12.7%,同时平均交互步数减少12.7%和21.6%。消融实验表明,图结构经验、效用感知排序和自适应检索共同实现了跨不同任务和执行器模型的有效经验复用。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:28

# ExpGraph:面向LLM智能体的模型无关经验学习与图结构记忆

来源:https://arxiv.org/html/2605.30712

Tao Feng¹, Chongrui Ye¹, Tianyang Luo¹, Jingjun Xu¹, Xueqiang Xu¹, Haozhen Zhang², Zhigang Hua³, Yan Xie³, Shuang Yang³, Ge Liu¹, Jiaxuan You¹

¹伊利诺伊大学厄巴纳-香槟分校  
²南洋理工大学  
³Meta Monetization AI

###### 摘要

大语言模型(LLM)智能体在推理、工具使用和多步环境交互方面展现出强大能力,但它们往往从零开始解决每个任务,未能系统性地复用从先前交互中积累的成功策略或失败教训。常见的解决方案是对执行器进行微调,但随着LLM快速演进,这种做法变得越来越不灵活:当更强或更合适的执行器出现时,执行器特定的训练可能需要重复进行。为解决此局限,我们提出 **ExpGraph**,一个模型无关的经验学习框架,使冻结且可替换的LLM执行器能够通过外部经验复用来改进,而无需修改其参数。ExpGraph将历史轨迹总结为可复用的技能和失败教训,将它们组织为自进化经验图中的节点,并连接相关经验以支持超越扁平最近邻匹配的检索。对于每个任务,轻量级检索协作者自适应地控制图扩散和效用感知排序,检索出既与任务相关、又对冻结执行器有历史使用价值的经验。该协作者通过强化学习优化,利用基于效用的反馈(比较有无检索经验时执行器的性能),同时经验图根据下游任务结果在线更新。我们在 **ExpSuite** 上评估ExpGraph,涵盖单轮问答、数学推理、代码生成以及多步智能体环境(包括ALFWorld和AppWorld)。在静态任务中,ExpGraph在较小执行器上相比最强基线提升 **12.2%**,在较大执行器上提升 **4.7%**。在智能体环境中,增益进一步提升至 **21.4%** 和 **12.7%**,同时相比最高效基线,平均交互步骤分别减少 **12.7%** 和 **21.6%**。消融研究表明,图结构经验、效用感知排序和自适应检索共同实现了跨不同任务和执行器模型的有效经验复用,为LLM智能体在不重新训练底层执行器的情况下从经验中学习提供了一条实用且与执行器无关的路径。我们的ExpGraph代码将在 https://github.com/ulab-uiuc/ExpGraph 发布。

## 1 引言

LLM智能体在需要推理、工具使用和多步环境交互的复杂任务中展现出强大能力(Yao et al., 2022;Shinn et al., 2023)。然而,一个关键瓶颈是,大多数智能体仍作为“一次性执行器”运作:每个任务基本从零开始解决,先前交互中积累的成功策略、失败教训和可迁移洞察被丢弃,而非系统性复用。一个自然的补救方法是在其自身经验上微调执行器,但随着LLM能力快速演进,这一解决方案变得越来越不灵活。每当发布更强或更合适的执行器时,执行器特定的训练可能需要重复进行,使得经验学习与特定模型实例紧密耦合。这一局限尤其成问题,因为许多能力强大的LLM要么规模过大、更新成本高昂,要么无法进行参数级修改。这些观察激发了一个更灵活的研究问题:**LLM智能体如何在保持执行器冻结且可替换的同时,从积累的经验中学习?**

现有的经验学习方法,如表1总结,提供了部分解决方案,包括文本经验蒸馏(Zhao et al., 2024)、记忆组织(Chhikara et al., 2025)、效用感知经验选择(Zhang et al., 2026)以及自适应检索或搜索策略(Jiang et al., 2025b)。然而,这些能力通常是孤立发展的,可复用经验往往被视为孤立记录或局部匹配候选。构建统一的经验学习框架因此并非易事。

第一,**表面相关性不等于经验效用**。看似与当前任务相似的经验可能提供很少的下游收益,而一个有用的经验可能编码了可迁移策略、共享子目标或失败模式,这些并不在任务嵌入的最近邻中。

第二,**有用的经验通常是关系型的而非孤立的**。过去的轨迹可能通过共同策略、环境约束或重复错误相互关联,因此将它们视为独立的文本条目会遗漏经验之间的重要关系。

第三,**检索必须同时适应任务和执行器**。某些任务受益于对相关经验邻域的广泛探索,而其他任务则需要聚焦于高效用经验的精选。与此同时,不同执行器在推理、规划和指令遵循能力上各有差异,因此经验学习系统应通过外部上下文改进执行器,而不假设执行器本身可以被重新训练。

表1:与代表性经验学习方法的比较。ExpGraph是唯一同时支持图结构经验、图扩散、效用感知排序和自适应检索以实现有效经验复用的框架。

| 方法 | 图结构经验 | 图扩散 | 效用感知排序 | 自适应检索 |
|------|------------|--------|--------------|------------|
| ExpeL (Zhao et al., 2024) | ✗ | ✗ | ✗ | ✗ |
| Mem0 (Chhikara et al., 2025) | ✓ | ✗ | ✗ | ✗ |
| MemRL (Zhang et al., 2026) | ✗ | ✗ | ✓ | ✗ |
| S3 (Jiang et al., 2025b) | ✗ | ✗ | ✗ | ✓ |
| ExpGraph | ✓ | ✓ | ✓ | ✓ |

为解决这些挑战,我们提出 **ExpGraph**,一个模型无关的经验学习框架,通过自进化的可复用经验关系记忆和可训练的检索协作者来改进冻结的LLM执行器。ExpGraph不修改执行器,而是将其视为可替换的任务求解器,学习如何通过输入上下文提供有用的经验。这种设计将经验学习与执行器训练解耦:当更强或不同的LLM可用时,相同的外部经验系统可以复用或调整,而无需重新训练执行器本身。

具体来说,ExpGraph将历史轨迹总结为紧凑的经验单元,包括从成功轨迹中提炼的技能和从失败中提炼的教训。这些单元组织为经验图中的节点,边连接语义或策略相关的经验。该图允许检索超越扁平最近邻匹配,从初始匹配的经验扩展到与当前任务共享可迁移策略、子目标或失败模式的相关经验。在此关系记忆之上,ExpGraph使用轻量级检索协作者预测任务自适应的检索控制,同时决定检索在图中的探索广度以及最终排序在语义相关性和历史效用之间的平衡程度。

为了学习哪些经验实际有用,ExpGraph使用来自下游任务性能的基于效用的反馈。执行器在有和没有检索经验的情况下分别评估,使检索系统能够估计所选经验是否真正改进了执行器,而不仅仅是语义上匹配任务。该反馈优化检索协作者并更新经验节点效用统计,逐渐偏向不仅相关而且经验上有益的经验。在此过程中,执行器LLM从未更新,使得ExpGraph能够支持不同规模、能力和部署设置下的冻结执行器。

我们在 **ExpSuite** 上评估ExpGraph,涵盖单轮静态任务(问答、数学推理和代码生成)以及多步智能体环境(ALFWorld和AppWorld)。在静态任务中,ExpGraph在较小执行器上相比最强基线提升 **12.2%**,在较大执行器上提升 **4.7%**。优势在智能体环境中更为显著,ExpGraph在较小和较大执行器上分别将加权平均分提升 **21.4%** 和 **12.7%**。同时,ExpGraph还提高了决策效率,相比最高效竞争基线,平均交互步骤分别减少 **12.7%** 和 **21.6%**。这些结果表明,当任务需要长期决策,且执行器必须通过外部经验而非参数更新来改进时,建模经验间关系和学习效用感知的自适应检索尤其有价值。消融研究进一步证实,经验关系、图扩散、效用感知排序和自适应检索协作者训练各自贡献了总体增益。

## 2 预备知识

### 2.1 模型无关的LLM智能体

我们考虑一个求解任务 \(x \in \mathcal{X}\) 的LLM智能体,产生输出 \(y\)(可以是动作、答案或代码序列),并从环境或评估器获得任务得分 \(s = S(x, y) \in \mathbb{R}\)。智能体围绕一个执行器LLM \(\pi_{\mathrm{exec}}\) 构建,它将任务输入映射到输出,即 \(y = \pi_{\mathrm{exec}}(x)\)。我们采用执行器的**模型无关**观点:经验学习机制不应依赖于 \(\pi_{\mathrm{exec}}\) 的内部架构、参数、梯度、logits 或训练过程。相反,\(\pi_{\mathrm{exec}}\) 被视为一个冻结且可替换的任务求解器,可以是闭源的、更新成本高昂的、专用于特定领域的,或者是新发布的。改进机制仅通过执行器的输入输出行为和任务级反馈与之交互。这种设置将经验学习与执行器训练解耦,使得相同的外部经验系统能够通过输入上下文改进不同的冻结执行器,而非通过参数更新。

### 2.2 经验增强学习

为了通过输入改进执行器,我们为智能体配备一个外部经验系统 \(\mathcal{M}\),存储从历史轨迹中提炼的可复用知识。一条轨迹记为 \(\tau = (x, \xi, y, s)\),其中 \(x\) 是任务输入,\(\xi\) 表示中间执行过程,\(y\) 是最终响应或动作序列,\(s \in \mathbb{R}\) 是任务得分。具体来说,\(\xi\) 对应于智能体环境中的智能体交互轨迹,以及问答或推理任务中的中间思考过程。每条轨迹被总结为一个紧凑的自然语言经验单元 \(e = \mathrm{Summarize}(\tau)\),并存储在 \(\mathcal{M}\) 中。在执行时,智能体检索一个经验子集 \(E \subseteq \mathcal{M}\),并将其注入执行器的输入上下文,得到 \(y = \pi_{\mathrm{exec}}(x, E)\)。任务得分 \(s = S(x, y)\) 随后间接依赖于 \(E\) 的选择。由于 \(\pi_{\mathrm{exec}}\) 是固定的,可学习组件是**检索策略** \(\pi_{\mathrm{ret}}\),它根据当前任务从 \(\mathcal{M}\) 中选择 \(E\)。学习目标是在任务分布 \(\mathcal{D}\) 上最大化期望任务性能:

\[
\max_{\pi_{\mathrm{ret}}} \; \mathbb{E}_{x \sim \mathcal{D}} \left[ \, S\!\left(x, \, \pi_{\mathrm{exec}}\!\left(x, E\right)\right) \,\right], \quad E \sim \pi_{\mathrm{ret}}(\cdot \mid x, \mathcal{M}).
\tag{1}
\]

该公式将执行与经验学习解耦:\(\pi_{\mathrm{exec}}\) 求解任务,而 \(\pi_{\mathrm{ret}}\) 决定哪些经验应作为上下文提供。

## 3 ExpGraph:效用引导的经验图检索

### 3.1 概述

见图1

图1:ExpGraph 概述。ExpGraph 使一个冻结且可替换的执行器 LLM 通过自进化的经验图和一个可训练的检索协作者来改进。对于每个传入任务 \(x_t\),任务被嵌入为 \(h_{x_t}\) 并传递给检索协作者 \(\pi_{\mathrm{ret}}^t\),它预测两个自适应控制:\(R_t\) 用于图扩散深度,\(W_t\) 用于相似性–效用权衡。通过三个步骤在当前经验图 \(G^t\) 上执行检索:(a) 语义播种,通过余弦相似度选择种子集 \(S_0\);(b) 图扩散,使用由 \(\rho\) 控制的个性化 PageRank 从种子扩展;(c) 效用感知排序,结合语义相关性和效用置信度选择前 \(K\) 个经验 \(E_t\)。冻结执行器 \(\pi_{\mathrm{exec}}\) 随后在有和没有检索经验的情况下进行评估,产生 \(s_{\mathrm{with}}^t\) 和 \(s_{\mathrm{without}}^t\)。它们的差值加上绝对任务得分形成奖励 \(r_t = (s_{\mathrm{with}}^t - s_{\mathrm{without}}^t) + \eta s_{\mathrm{with}}^t\)。该奖励驱动一个共进化过程:通过 PPO 更新检索协作者,并通过细化已访问节点效用、添加新经验节点、将新节点连接到相似邻居以及在必要时修剪低质量节点来更新经验图。只有检索协作者和经验图进化;执行器 LLM 始终保持冻结。

ExpGraph 是一个面向 LLM 智能体的模型无关经验学习框架。给定任务 \(x\),ExpGraph 通过检索有用的外部经验来改进冻结的执行器 LLM \(\pi_{\mathrm{exec}}\),而不修改执行器。关键思想是将执行与经验学习解耦:检索协作者学习提供哪些经验作为上下文,而不是更新执行器,使得框架兼容任意执行器实例。如图 1 所示,ExpGraph 在三个组件上作为一个闭环运行。首先,历史轨迹被压缩为经验单元,并组织成图结构经验系统。其次,检索协作者预测任务自适应控制,通过语义播种、图扩散和效用感知排序导航该图。第三,下游反馈更新协作者和图统计,使未来检索偏向经验上有用而非仅仅语义相关的经验。

### 3.2 经验图构建

**轨迹到经验的转换**。设一条历史轨迹记为 \(\tau = (x, \xi, y, s)\),其中 \(x\) 是任务输入,\(\xi\) 表示中间执行过程,\(y\) 是最终响应或动作序列,\(s \in \mathbb{R}\) 是任务得分。

相似文章

MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。

迈向可安全审计的大模型智能体:一种统一的图表示方法

arXiv cs.AI

本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。