AdMem:面向任务求解智能体的高级记忆系统

arXiv cs.AI 论文

摘要

本文介绍AdMem,一种面向基于LLM的智能体的统一记忆框架,整合语义记忆、情景记忆和程序性记忆,并采用双层短期与长期存储结构,通过多智能体架构实现自动记忆生成与自适应检索。实验表明,该方法在长程多轮任务中提升了鲁棒性和成功率。

arXiv:2606.06787v1 公告类型:新论文 摘要:大型语言模型(LLM)作为工具使用智能体展现出潜力,但在需要记忆、组织和复用知识的长期任务中仍受局限。先前的记忆方法试图解决这一情况,但主要侧重于存储事实信息。近期关于程序性记忆的工作改进了任务复用,但往往简化为重放过去的成功经验,而未处理失败案例或在线可扩展性。我们提出一种统一且自动化的记忆框架,在结合短期与长期存储的双层设计中整合语义、情景和程序性记忆。由执行智能体、记忆智能体和评判智能体构成的多智能体架构实现了自动记忆生成、奖励标注和自适应检索。长期记忆通过基于奖励的评估、合并和剪枝进行管理,确保可扩展性和持续改进。在多种环境下的实验表明,与现有基线相比,我们的方法提升了长程多轮任务的鲁棒性和成功率。本研究强调了全面、自适应的记忆对于推进基于LLM的智能体的重要性。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:14

# AdMem: 面向任务求解智能体的先进记忆系统  
**来源:** https://arxiv.org/html/2606.06787  

**Runzhe Wang**  
普林斯顿大学  
[email protected]  

**Huilin Lu**  
亚马逊  
[email protected]  

**Shengjie Liu**  
亚马逊  
[email protected]  

###### 摘要  

大型语言模型(LLMs)作为工具使用智能体展现出潜力,但在需要记忆、组织和复用知识的长期任务中仍存在局限。先前的记忆方法试图解决这一问题,但主要集中在存储事实信息。近期关于程序性记忆的研究提升了任务复用能力,但往往退化为简单复现过去的成功经验,未能处理失败案例或在线可扩展性。我们提出一种统一且自动化的记忆框架,整合了语义、情节和程序性记忆,采用结合短期和长期存储的双层设计。通过包含执行者、记忆和评论者的多智能体架构,实现了自动记忆生成、奖励标注和自适应检索。长期记忆通过基于奖励的评估、合并和剪枝进行管理,确保可扩展性和持续改进。在多种环境下的实验表明,与现有基准相比,我们的方法在长期多轮任务中提高了鲁棒性和成功率。这项工作凸显了全面、适应性记忆对于推动基于LLM的智能体发展的重要性。

## 1 引言  

大型语言模型(LLMs)(Brown et al., 2020 (https://arxiv.org/html/2606.06787#bib.bib104);Chowdhery et al., 2023 (https://arxiv.org/html/2606.06787#bib.bib105);DeepSeek-AI et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib108);Touvron et al., 2023 (https://arxiv.org/html/2606.06787#bib.bib106);Zeng et al., 2023 (https://arxiv.org/html/2606.06787#bib.bib107)) 推动了人工智能的重大进展,在多个领域实现了突破。尽管在智能体环境下的推理和工具使用方面有所改进,但在需要跨会话或大型输入进行记忆、组织和应用知识的长期多轮任务中,它们仍然存在困难(Zhang et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib150))。这些挑战凸显了记忆的核心作用——记忆被广泛认为是智能的重要组成部分,对智能体的适应性至关重要。为了解决基于LLM的智能体中的记忆挑战,出现了两个主要研究方向(Wu et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib151)):(1)架构记忆,即直接在网络中构建额外容量(例如,通过层、模块(Xu et al., 2023 (https://arxiv.org/html/2606.06787#bib.bib152)));(2)符号/文本记忆系统,模型通过显式读写(通常通过提供API或策略)来使用。在这两个方向上,许多努力都试图增强LLM在长期任务求解过程中的信息处理能力。  
一条工作路线是将记忆直接集成到模型参数中,以增强模型的有效上下文长度。端到端记忆网络(Sukhbaatar et al., 2015 (https://arxiv.org/html/2606.06787#bib.bib161))在问答中引入了对外部记忆的可微分注意力,后续工作(Berges et al. (https://arxiv.org/html/2606.06787#bib.bib5); Behrouz et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib162))扩展了这一思想,引入了学习到的长期记忆模块,在保持训练可并行化和推理高效的同时保留了历史上下文。参数化方法提供速度和可微分性,但牺牲了可读性和可控的持久性,因为记忆的信息与模型参数绑定,既不可解释,设计者也无法控制。相比之下,文本存储可审计且便于工具使用,但需要设计良好的策略才能有效和高效。  
早期工作(Modarressi et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib153); 2024 (https://arxiv.org/html/2606.06787#bib.bib154))微调模型以将知识写为三元组,并通过检索读取这些存储,从而在语言建模和知识密集型任务中实现改进,并保留了可解释的记忆痕迹;Memory Sandbox(Huang et al., 2023 (https://arxiv.org/html/2606.06787#bib.bib155))突出了用户控制,允许人类用户直接添加/合并/删除记忆;MemGPT(Packer et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib156))引入了操作系统风格的虚拟上下文管理,重点是为LLM进行内存分页以执行CRUD操作;Mem0(Chhikara et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib157))从运行中的对话提取记忆单元,对其进行整合(通常整合为图),并在生产环境中报告了显著的延迟和token成本优势;Mem1(Zhou et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib158))更进一步,训练了一个紧凑的内部文本状态,该状态在轮次之间循环更新;Zhong et al. (2023 (https://arxiv.org/html/2606.06787#bib.bib159))则分层构建了情节历史、长期摘要和不断演化的用户“画像”,并采用了受遗忘曲线启发的衰减/增强规则;合并系统如MemAgent(Yu et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib160))训练了一个强化学习的记忆策略,将长文本分段读取并覆盖/合并记忆,实现线性时间的长期上下文处理。HiAgent(Hu et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib176))将任务求解分解为多个子任务分支,以实现更好的上下文浓缩。  
虽然上述工作在记忆生成和管理策略方面展示了多样化的设计,但它们主要基于两个考虑构建记忆:1)学习关于世界和用户的事实信息;2)将长的历史上下文压缩为简短、可移植的文本片段,用于后续推理。从认知架构的角度(Cohen et al., 1997 (https://arxiv.org/html/2606.06787#bib.bib178))来看,这些工作重新审视了语义和情节记忆的经典划分(Wu et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib151))。然而,在该划分中,程序性记忆这一重要部分在过程中缺失了——LLM在概率性生产系统中充当决策者,而提示则作为控制流。因此,近期的几项工作(Fang et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib167); Tang et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib172); Wang and Chen, 2025 (https://arxiv.org/html/2606.06787#bib.bib171); Wang et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib164); Yang et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib170))将程序性记忆纳入其中,将其记录为成功决策过程以供未来参考。  
智能体工作流记忆(AWM)(Wang et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib164))从过去网络导航的成功中归纳出可复用的工作流。通过存储和应用这些工作流,AWM在具有挑战性的基准测试(如Mind2Web(Deng et al., 2023 (https://arxiv.org/html/2606.06787#bib.bib165))和WebArena(Zhou et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib166)))上显著提高了成功率和效率;在此基础上,Memp(Fang et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib167))开发了一种终身程序性记忆,将经验提炼为细粒度的指令和更高级的模板,并动态更新和跨任务、跨模型迁移,在TravelPlanner(Xie et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib168))和ALFWorld(Shridhar et al., 2021 (https://arxiv.org/html/2606.06787#bib.bib169))上取得了强劲结果;除了动作轨迹,Buffer of Thoughts (BoT)(Yang et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib170))专注于推理模式,通过存储提炼的“思维模板”来指导问题求解,以最小的开销提高了推理任务的准确性和鲁棒性;进一步扩展范围,MIRIX(Wang and Chen, 2025 (https://arxiv.org/html/2606.06787#bib.bib171))引入了一种多智能体、多模态的记忆架构,包含六种结构化类型,实现了跨多种基准的长期、个性化和高效记忆管理;Agent KB(Tang et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib172))推进了跨智能体程序性记忆,将高层策略和执行日志结合在分层存储中,实现了跨领域迁移,在GAIA(Mialon et al., 2023 (https://arxiv.org/html/2606.06787#bib.bib173))和SWE-bench(Jimenez et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib174))上取得了巨大收益。  
然而,这些程序性记忆的设计存在一些主要局限性。首先,它们将程序性记忆视为从成功任务完成中提取的指令配方,因此记忆无法有效指导模型通常失败的关键任务步骤。其次,它们设置中考虑的二值任务级反馈是稀疏的,不足以指导涉及多个步骤的长期任务求解过程——这是强化学习设计中常见的一个挑战,即信用分配问题。第三,它们大多在离线训练-推理设置中考虑记忆生成,评估基于问答类型的数据集,在在线部署中缺乏可扩展的记忆管理设计,缺少自动记忆条目评估、主动擦除和重排记忆以及自适应记忆召回。  
理论上,已经提出了优雅且通用的智能体框架(Sumers et al., 2023 (https://arxiv.org/html/2606.06787#bib.bib175); Gao et al., 2025 (https://arxiv.org/html/2606.06787#bib.bib177))。两种思路塑造了一个具有强智能的理想智能体:从记忆架构角度有短期 vs 长期记忆、情节、语义和程序性记忆;从学习认知角度有反馈循环以及作为驱动智能体通过经验自我进化的马达的记忆编码/解码。然而,在这些想法与文献中实际的记忆实现之间仍然存在差距。概念框架缺乏在任何实际LLM应用上的实现。特别是,基于规则的确定性系统、基于统计的数值算法以及LLM中随机的、token级别的推理过程之间存在显著的不匹配。实际系统通常会简化或省略在交互式环境中学习所必需的关键组件。实现学习记忆的系统通常缺乏奖励驱动更新、信念建模、迁移学习或信用分配机制,限制了它们随时间改进的能力。  
鉴于以上情况,我们希望为终身任务求解的智能体环境设计一个更好的记忆系统,旨在弥合上述理论与实践的差距。我们为基于LLM的智能体添加记忆的动机是:(1)实现用户和任务的定制化;(2)支持智能体在长期运行环境中决策过程的自我改进。在本文中,我们介绍 AdMem,一个统一框架,包含:

- •一个全面的记忆系统,支持程序性、语义和情节记忆的生成、存储、管理和检索。建立双层记忆架构,从用于上下文压缩的短期记忆,到具有自动记忆评估、合并和剪枝以及自适应记忆检索的可扩展长期记忆。
- •一种为有效记忆生成而设计的智能体规划范式,包含自适应任务规划、期望注释和自动反思。

## 2 方法

### 2.1 设置

我们考虑任务求解的智能体设置,其中智能体通过与环境轮次交互来解决一系列任务。环境可能包含不同组件,包括人类用户、其他智能体或工具调用基础设施,交互可以通过自然语言通信或LLM工具使用来实现。在每一轮 \(t\),智能体采取动作 \(a_t\),该动作被传递给环境。然后环境演变并以观察 \(o_t\) 响应。智能体的目标由每个任务定义,即通过其动作实现环境的特定状态。请注意,在实际应用中(如人类助手),环境通常不会在每次任务后重置,这使得问题具有终身视界,这与典型任务求解基准(不同任务利用独立环境状态)不同。我们将智能体决策过程形式化为部分可观察马尔可夫决策过程(POMDP)\((S, A, T, R, \Omega)\)。智能体维护一个智能体状态 \(s \in S\),我们也称之为记忆。在每一轮 \(t\),智能体基于LLM策略 \(\pi(c_t) \in \Delta(A)\) 选择动作 \(a_t \sim \pi(s_t)\),该策略将LLM上下文(\(c_t\),从记忆 \(s_t\) 生成)映射到动作空间上的概率分布。然后,它从环境接收观察 \(o_t \in \Omega\),并执行记忆更新作为状态转移 \(s_{t+1} = T(s_t, a_t, o_t)\)。用于多轮任务求解基准的标准无修饰基线(例如 Ma et al., 2024 (https://arxiv.org/html/2606.06787#bib.bib180))使用 POMDP 的简单实现来测试 LLM 模型的原生决策能力,即设置 \(c_t = s_t = [a_1, o_1, a_2, o_2, a_3, o_3, \cdots a_t, o_t]\) 为到目前为止的轨迹。然后使用 LLM 模型作为策略生成下一个动作 \(a_{t+1} \sim \pi_{LLM}(c_t)\)。由于复杂任务的轨迹可能非常长,这些基准对现代 LLMs 支持长上下文并有效推理提出了挑战。同时,作为一种智能体方法应对这一挑战,先前工作提出了两个主要方向:(1)上下文压缩,将状态 \(s_t\) 维持在适合单个 LLM 上下文窗口的适中长度,通常通过截断或 LLM 摘要实现;(2)检索增强生成,在生成动作时仅向 LLM 提供部分状态。这两种处理模式自然对应于人类认知中的短期和长期记忆。

### 2.2 框架

环境  
执行者智能体  
评论者智能体  
长期记忆智能体  
语义堆  
情节栈  
观察  
任务  
STM  
动作  
期望  
观察  
程序性  
语义 & 情节  
检索到的 LTM  

图 1:外部环境、执行者、评论者和记忆智能体之间的交互图。执行者智能体维护短期记忆(STM)以获取任务所需的所有必要信息,并被提供长期记忆(LTM)以利用过去的经验。

在我们的记忆框架中,我们将短期记忆和长期记忆都作为智能体的记忆。具体来说,我们的智能体状态 \(S = S_{\text{short}} \times S_{\text{long}}\) 包含短期记忆部分 \(S_{\text{short}}\) 和长期记忆部分 \(S_{\text{long}}\)。为了实现高效的记忆管理,我们将系统构建为一个多智能体框架,包含三个重要部分:执行者智能体、记忆智能体和评论者智能体。

- •**执行者智能体**:一个基于 LLM 的智能体,利用记忆与环境交互以求解任务。该智能体自身维护一个每轮更新、任务结束后清除的短期记忆状态 \(s_t \in S_{\text{short}}\)。

相似文章

DimMem:面向高效长期智能体记忆的维度结构化

arXiv cs.CL

DimMem 提出了一种用于 LLM 智能体的维度记忆框架,将记忆表示为具有显式字段的原子化、类型化单元,在 LoCoMo-10 和 LongMemEval-S 上实现了最先进的准确率,同时将 token 成本降低了 24%。

MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。