Metis:桥接文本与代码记忆以实现自我进化智能体

arXiv cs.CL 论文

摘要

Metis 开展了一项对比文本记忆与代码记忆的受控研究,发现两者具有互补的权衡特性。它提出了一种分层双表示记忆系统,在 AppWorld 基准测试中,任务准确率最高提升 20.6%,执行成本最高降低 22.8%。

arXiv:2606.24151v1 公告类型:新 摘要:自我进化智能体通过从过往执行中提炼经验并在未来任务中复用,从而随时间不断提升。现有系统将此类经验表示为注入智能体上下文的自然语言文本,或表示为作为可调用工具公开的代码。然而,这两种表示的选择通常在设计时做出,而非根据经验本身的特征推导得出,导致两者之间的权衡关系尚不明确。我们首次开展了一项受控研究,在完全相同的经验集上隔离文本记忆与代码记忆。结果表明,两种形式在构建成本、执行效率和可迁移性方面表现出互补的权衡特性,以至于单独任何一种表示都不足以胜任。基于这些发现,我们提出了 Metis,一种基于分层双表示记忆的自我进化智能体系统。Metis 将文本经验组织为执行计划、环境事实和常见陷阱,并有选择地将重复出现的计划结晶为经过验证的可调用工具。这种设计结合了文本记忆的广泛适用性与代码记忆的执行效率,同时仅在重复复用确有必要时才产生工具生成成本。我们在 AppWorld(一个具有挑战性的交互式智能体基准)上评估了 Metis。结果表明,与 ReAct 相比,Metis 将任务准确率提高了最多 20.6%,同时将执行成本降低了最多 22.8%。与具有代表性的自我进化智能体系统相比,Metis 在准确率、执行效率和记忆构建成本之间始终实现了更好的平衡。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:45

# Metis:弥合文本与代码记忆,构建自进化智能体

来源:https://arxiv.org/html/2606.24151

Zijie Dai¹, Siuhin He¹, Hui Li¹, Qihui Zhou², Jiajun Li², Mingcong Song², Guoping Long², Hongjie Si², Xin Yao², Lin Zhang², James Cheng¹, Xiao Yan³  
¹香港中文大学 ²华为 ³武汉大学  
caiusdai@link\.cuhk\.edu\.hk

###### 摘要

自进化智能体通过从过往执行中提炼经验并将其复用于未来任务,从而随时间不断改进。现有系统将此类经验表示为注入智能体上下文中的自然语言文本,或表示为可调用的代码工具。然而,这两种表示之间的选择通常在设计时确定,而非来源于经验本身的特性,导致我们对其间的权衡理解不足。我们首次在相同经验集上隔离文本记忆与代码记忆进行受控研究。结果表明,两种形式在构建成本、执行效率和可迁移性上展现出互补的权衡关系,单一表示均不足以胜任。基于这些发现,我们提出 Metis,一种基于分层双表示记忆的自进化智能体系统。Metis 将文本经验组织为执行计划、环境事实和常见陷阱,并选择性地将重复出现的计划固化为经验证的可调用工具。这一设计结合了文本记忆的广泛适用性与代码记忆的执行效率,同时仅在重复利用成本合理时才产生工具生成开销。我们在面向交互式智能体的挑战性基准 AppWorld 上评估了 Metis。结果表明,Metis 相比 ReAct 将任务准确率提升高达 20.6%,同时将执行成本降低高达 22.8%。与代表性自进化智能体系统相比,Metis 在准确率、执行效率和记忆构建成本之间取得了更优的平衡。

## 1 引言

大语言模型(LLM)的最新进展推动了从被动文本生成向智能体系统的转变(Wang et al., 2024a),这类系统将推理与行动交错进行(Yao et al., 2023),并调用外部工具(Schick et al., 2023; Luo et al., 2025)来完成用户指定的任务。然而,一旦部署,智能体将在开放环境中运行,其挑战无法在训练时完全预见。因此,有效性能需要通过与环境的持续交互进行不断适应,而非仅依赖训练时获得的能力(ang Gao et al., 2026)。实现这种适应的一个根本障碍是当前基于 LLM 的智能体的无状态特性。尽管智能体在执行任务过程中可能积累宝贵经验,但这些经验仅保留在有限的上下文窗口内。一旦交互历史不再可访问,智能体便会丢失先前尝试中获得的任务相关知识:面对相关任务时,它必须重新发现已找到的解决方案,并且容易重复犯过的错误。这种重复不仅带来额外的计算成本,还会降低任务成功率,最终限制智能体随时间改进的能力。

参考图注 (a) 成本分解 | 参考图注 (b) 反思步骤 | 参考图注 (c) 迁移可靠性

图 1:两种经验形式的性能分析结果。

自进化智能体应运而生,通过从过往执行中提炼经验并复用于未来任务,实现与环境交互中的持续改进(Zhang et al., 2025; Cao et al., 2025; Li et al., 2026; Wu et al., 2025)。现有方法主要采用两种形式表示此类经验,我们根据智能体消费存储经验的方式(而非表面内容)加以区分。第一种是**文本记忆**,其中经验存储为自然语言知识,在运行时注入智能体上下文,要求智能体阅读并推理(Zhang et al., 2026; Han et al., 2025; Mi et al., 2026; Suzgun et al., 2025; Zhang et al., 2025; Zhou et al., 2025)。第二种是**代码记忆**,其中过往例程被封装为可调用工具或 MCP 服务,智能体直接调用而无需重新推导底层过程(Li et al., 2026; Qiu et al., 2025)。在此标准下,将代码片段存储但通过上下文注入交付的系统(Wang et al., 2026; Jiang et al., 2026)属于文本记忆类别,因为智能体仍通过阅读和推理而非调用来消费它们。

尽管采用日益广泛,记忆表示仍很大程度上未被充分探索。何种表示适用,以及当单一表示不足以胜任时两者如何协作,仍主要由临时设计选择决定。该领域仍缺乏对不同表示能捕获何种经验、带来何种成本以及具备何种独特特征的系统性理解。为填补这一空白,我们在 AppWorld(Trivedi et al., 2024)训练集上进行了一项受控研究,在相同的经验集上隔离每种表示形式。实验细节见附录 A。结果总结于图 1,揭示了文本记忆与代码记忆在三个维度上的互补性。

1. **构建成本**。文本记忆的构建成本远低于代码记忆,如图 1(a) 所示。构建一个可复用工具需要额外的探索、验证和调试,以确保合成实现行为正确,如图 1(b) 所示,这需要约 2.5 倍更多的 ReAct 轮次,并且与文本记忆构建相比多出百万级 token。

2. **执行效率**。代码记忆在运行时效率上显著优于文本记忆,如图 1(a) 所示。文本记忆以自然语言描述例程;尽管此类指导可提高效率,但智能体在推理时仍需对其进行推理并逐步执行规定的操作。相反,代码记忆将例程编译为可调用工具,将多步推理过程转化为单一动作调用,消除了冗余的中间推理。

3. **迁移可靠性**。文本记忆比代码记忆更可靠地泛化到未见任务。我们通过对比两种评估设置来度量这一点。在**样本内**设置中,记忆从所有任务构建并在相同任务上评估。在**流式**设置中,每个任务仅使用从严格更早任务中提炼的记忆来解决。因此,两种设置之间的准确率差距量化了表示优势中无法迁移到提炼任务之外的部分。如图 1(c) 所示,代码记忆在流式设置中下降了 22.3 个百分点,而文本记忆仅下降 5.6 个百分点。差异源于两种表示的使用方式。代码记忆将经验编码为固定的可执行行为,这高效但在任务变化下脆弱。文本记忆则提供可适应的自然语言指导,智能体在推理时能重新解释,从而在相关任务间实现更可靠的迁移。因此,固化应仅用于表现出稳定且重复过程模式的经验,而非不加区分地应用。

这些发现表明,没有单一的记忆表示是足够的。文本记忆构建便宜且迁移稳健,适合广泛捕获可复用经验。相比之下,代码记忆提供更高的执行效率但构建昂贵,且在不同任务间迁移时脆弱。因此,不应不加区分地应用固化。只有当某个经验重复出现的频率足够摊销构建成本,且表现出可以安全固化为代码的稳定执行模式时,才有价值。这激发了一种选择性提升机制,其中文本记忆首先作为低成本暂存层,只有重复出现、高价值且稳定的经验才被提升为代码。

我们由此提出 Metis,一个基于上述研究发现的分层双表示记忆系统。其基础是文本记忆,以自然语言捕获经验,并在运行时注入以指导智能体推理。性能分析还表明,有用的文本经验并非同质。值得记录的经验不仅在内容上不同,在存储粒度上也不同:有些是粗粒度的过程计划,总结了可复用的执行例程;有些是细粒度的环境事实,揭示了环境的独特约束;还有一些是局部陷阱警告,防止重复犯错。将它们全部视为单一扁平的文本提示,要么过度泛化了任务特定约束,要么过度特化了可复用例程。因此,Metis 将文本记忆组织为三类:**计划**、**事实**和**陷阱**。每一类承担不同角色,并按其自身范围和用法模式进行检索。建立在文本记忆之上的是代码记忆,作为经验的固化形态。Metis 并非不加区分地将所有经验转换为代码,而是仅将重复出现的计划提升为可调用工具。事实和陷阱保持文本形式,因为它们主要提供推理指导而非可执行过程。这种选择性提升策略确保仅当行为模式已展现出足够价值和稳定性时,才创建代码记忆,从而在多次使用中摊销工具构建成本,同时从多个观察中提炼出更稳健和通用的工具。值得注意的是,Metis 中的反思完全处于执行关键路径之外:两种反思路径都在已完成轨迹上操作,因此在实际部署中可异步运行,记忆构建从不增加任务服务延迟。通过将结构化文本指导与选择性固化的可执行知识相结合,Metis 保留了文本记忆的低构建成本和高迁移可靠性,同时利用了代码记忆的执行效率。

总结而言,本文做出以下贡献:
- 我们首次(据我们所知)在相同经验集和共享智能体骨干上隔离记忆表示形式,从而将表示效应与底层智能体系统的效应分离开来。
- 我们引入 Metis,一个基于表示研究见解的分层双表示记忆系统。Metis 将文本记忆作为基础,并选择性地将重复出现的战略计划提升为可调用代码,同时保留环境事实和常见陷阱作为文本指导。
- 通过在 AppWorld 基准(Trivedi et al., 2024)上的广泛实验,我们证明 Metis 相比现有基于记忆的智能体,在提高任务成功率的同时,保持记忆构建成本与先前自进化方法相当或更低。

## 2 预备知识

### 2.1 智能体工作流

我们考虑业界常用的范式:智能体通过 ReAct 循环(Yao et al., 2023, 2024; Yang et al., 2024)与有状态沙箱环境交互来解决用户任务。用户给出的任务查询 q 是一条自然语言指令,智能体是一个 LLM 策略 π,作用于交互上下文 c_t(c_1 包含 q 和系统提示)。在第 t 步,策略产生动作 a_t∼π(⋅∣c_t),可以是代码块或工具调用——两者统一处理,因为系统解析后执行的都是文本(Wang et al., 2024b; Schick et al., 2023),环境返回观测 o_t,上下文扩展为 c_{t+1}=c_t⊕(a_t,o_t)。交互在步骤 T 终止,要么是终止动作,要么是步骤预算耗尽,产生轨迹:τ=(q,(a_1,o_1),…,(a_T,o_T))。

### 2.2 自进化智能体系统

自进化智能体通过整合从过往任务执行中获得的经验来随时间改进。现有方法大致分为两类。一类通过强化学习收集的经验更新策略参数(Zhao et al., 2025; Wu et al., 2025)。这类方法将获取的经验内化到模型参数中,难以检查、跨模型骨干迁移或在底层模型更换后复用(Fang et al., 2026)。在本文中,我们聚焦于互补的**无训练**范式,其中经验作为显式、模型无关的记忆工件保留,在推理时调节冻结的策略。具体而言,智能体面对任务流 q^{(1)},q^{(2)},… 并维护一个记忆 M,初始为空(M_0=∅)。对于任务 q^{(k)},从当前记忆 M_{k-1} 中检索相关条目,通常使用基于相似性的向量搜索技术(Yin et al., 2026a; Han et al., 2025; Yin et al., 2026b)和基于 LLM 的过滤(Li et al., 2026; Cao et al., 2025),然后将其融入交互上下文。策略随后以检索到的记忆为条件,a_t∼π(⋅∣c_t;M_{k-1}),展开 τ^{(k)} 如 §2.1 所述。一个或多个反思模块随后从展开结果中提炼经验……(原文截断,但根据上下文应继续)

相似文章

通过参数化记忆扩展自进化智能体

arXiv cs.AI

来自阿里巴巴/Qwen和北京大学的研究人员提出了TMEM——一种自进化参数化记忆框架。该框架利用在线LoRA权重更新,使LLM智能体能够在单个回合内真正从经验中学习,而非仅依赖提示空间中的记忆。TMEM在多个基准测试(包括LoCoMo、LongMemEval-S和CL-Bench)上均优于基于摘要和基于检索的基线方法。

Multi-Agent Transactive Memory

arXiv cs.AI

提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。

rohitg00/agentmemory

GitHub Trending (daily)

agentmemory 是一个开源的持久化记忆层,专为 AI 编程智能体(Claude Code、Cursor、Gemini CLI、Codex CLI 等)设计。它通过知识图谱、置信度评分和混合搜索技术,借助 MCP、Hooks 或 REST API,为智能体提供跨会话的长期记忆能力。该项目基于 iii 引擎构建,无需外部数据库,提供 51 个 MCP 工具。

MemPro:作为可进化程序的智能体记忆系统

arXiv cs.CL

MemPro 是一个系统级进化框架,它将记忆构建-检索管道视为一个可进化的程序,使用进化智能体(Evolving Agent)迭代诊断失败并创建改进版本。在长期任务基准上的实验表明,与静态和提示级基线相比,它在性能-成本权衡方面取得了持续改进。

AdMem:面向任务求解智能体的高级记忆系统

arXiv cs.AI

本文介绍AdMem,一种面向基于LLM的智能体的统一记忆框架,整合语义记忆、情景记忆和程序性记忆,并采用双层短期与长期存储结构,通过多智能体架构实现自动记忆生成与自适应检索。实验表明,该方法在长程多轮任务中提升了鲁棒性和成功率。