探索智能体记忆系统的跨场景通用性:诊断与强基线
摘要
本文评估了面向LLM智能体的八种记忆系统在五种不同场景下的表现,发现给予智能体对存储和检索的主动控制(而非被动管道)能够获得最佳的跨场景泛化能力,并由此提出了AutoMEM框架。
arXiv:2606.04315v1 Announce Type: new
摘要:LLM智能体会积累超出其上下文窗口的历史记录,这推动了关于记忆系统的研究日益增多。然而,大多数现有设计是针对单一场景(多轮对话或单一轨迹格式)调优的,几乎没有证据表明它们能泛化到部署中智能体遇到的异构轨迹。我们重新审视了八种记忆系统以及一个用于搜索问题的智能体框架,在五个场景上进行了评估:单轮问答、多轮对话、智能体轨迹问答、记忆压力测试以及长周期智能体任务。该框架通过工具调用自我管理纯文本文件存储,取得了最佳跨任务排名,这表明记忆性能的关键在于赋予智能体对存储和检索的主动控制,而非采用固定流水线后的被动存储。我们将这一见解实例化为AutoMEM,这是一个具有自我管理工具接口的智能体记忆框架,在我们评估的系统中实现了最佳的跨场景通用性。
查看缓存全文
缓存时间: 2026/06/05 02:06
# 探索智能体记忆系统的跨场景通用性:诊断与强基线 来源:https://arxiv.org/html/2606.04315 Zhikai Chen¹* Jialiang Gu²*† Junyu Yin²*† Xianxuan Long¹ Shenglai Zeng¹ Xiaoze Liu³ Kai Guo¹ Keren Zhou² Jiliang Tang¹ ¹密歇根州立大学 ²乔治梅森大学 ³普渡大学 ###### 摘要 LLM 智能体积累的历史信息会超出其上下文窗口,这推动了关于记忆系统的研究文献日益增多。然而,大多数现有设计都针对单一场景(多轮对话或单一轨迹格式)进行调优,鲜有证据表明它们能够泛化到智能体在部署中遇到的异构轨迹。我们重新审视了八种记忆系统,以及一个针对搜索问题的智能体框架,在五种场景上进行评估:单轮问答、多轮对话、智能体轨迹问答、记忆压力测试和长周期智能体任务。该框架通过工具调用自我管理平面文本文件存储,取得了最佳的跨任务排名,这表明记忆性能的关键在于赋予智能体对存储和检索的主动控制权,而非依赖于固定流水线背后的被动存储。我们将这一见解实例化为 **AutoMEM**,这是一个具有自我管理工具接口的智能体记忆框架,在我们评估的系统中实现了最佳的跨场景通用性。 --- ## 探索智能体记忆系统的跨场景通用性:诊断与强基线 Zhikai Chen¹*† Jialiang Gu²*† Junyu Yin²*† Xianxuan Long¹ Shenglai Zeng¹ Xiaoze Liu³ Kai Guo¹ Keren Zhou² Jiliang Tang¹ ¹密歇根州立大学 ²乔治梅森大学 ³普渡大学 ## 1 引言 大型语言模型(LLM)已从单轮聊天机器人 (Ouyang et al., 2022) 演变为通用智能体,能够进行规划、调用工具和执行长周期工作流 (Yao et al., 2022; Schick et al., 2023; Wang et al., 2024)。在这些场景中,模型积累了历史信息:用于支撑响应的知识语料库 (Lewis et al., 2020)、需要导航的代码库 (Jiménez et al., 2023; Heule et al., 2025)、用于规划的多步骤工作流 (Xie et al., 2024) 以及需要维护的用户状态 (Salemi et al., 2024)。记忆,即选择和组织过去信息的机制,使得 LLM 能够基于远超即时提示的信息来行动。 许多记忆系统已被提出 (Hu et al., 2026b),但增加的复杂性是否有益正日益受到质疑 (Pollertlam and Kornsuwannawit, 2026; He et al., 2026)。核心问题在于**大多数现有记忆系统都是场景狭隘的**:每个系统都围绕单一场景进行调优,通常是多轮对话 (Wu et al., 2024; Maharana et al., 2024) 或一种智能体轨迹格式,而这些场景所奖励的特性差异显著 (Zhao et al., 2026)。在一个场景上胜出并不意味着在其他场景上也能胜出,而且很少有证据表明哪种设计能够泛化。 因此,我们通过**跨场景通用性**的视角重新审视现有设计:一个实用的记忆系统必须能够处理智能体在部署中遇到的异构轨迹,例如多轮对话、代码交互和浏览器日志。我们同时跟踪令牌成本和延迟,以确保通用性不以不切实际的高昂成本为代价 (Yang et al., 2026)。 我们评估了八种代表性记忆系统,外加一个专为搜索设计的**智能体框架** (Li et al., 2026c),在五个任务族上进行评估:单轮问答、多轮对话问答、智能体轨迹问答、记忆压力测试和长周期智能体任务。这些系统涵盖了长上下文、笔记式、多存储层次化、图式和 RL 训练的设计。主要观察结果是,即使是这个现成的框架也取得了最佳的跨场景通用性:结构化记忆作为工具仍然有用,但仅靠它们本身过于场景狭隘,无法覆盖真实的智能体轨迹。要覆盖这种多样性,需要一个通过工具调用**自我管理记忆的智能体记忆框架**。我们将这一点实例化为 **AutoMEM**,它在我们评估的系统中取得了最佳的跨场景通用性。我们的主要贡献: 1. (1) 对八种记忆系统及一个智能体框架在五个任务族上进行跨场景评估,同时跟踪令牌成本、延迟和精确度。 2. (2) 实证发现:现有记忆系统在智能体轨迹上表现挣扎,表现为两种失败模式:**表征级**失败(构建时的模式丢弃了步骤级和动作级的证据)和**检索级**失败(被动检索无法浮出存储中保留的证据);一个将检索延迟到查询时的智能体框架获得了最佳的通用性。 3. (3) **AutoMEM**,一个具有记忆工具调用接口的智能体框架,在 LoCoMo 上比原始智能体框架提升了 **49.6%**,在整体排名中提升了 **24.4%**。 ## 2 相关工作 ### 2.1 记忆设计 LLM 智能体的记忆设计追求两个互补目标:提升**质量**(准确性、能力、通用性)和提升**效率**(令牌成本、构建成本、延迟)。 #### 质量 记忆设计归结为两个耦合的问题:如何存储和更新过去的信息,以及如何检索它。在存储方面,核心选择是粒度。基线方法存储原始的切分段落并通过相似性搜索进行检索 (Lewis et al., 2020; Karpukhin et al., 2020),在此基础上,三种更丰富的设计针对不同的访问模式:**原子笔记** (Chhablani et al., 2024; Zhong et al., 2023; Xu et al., 2025) 使每个事实成为可寻址、可编辑的记录,适用于演化的稳定事实负载;**OS 风格的分层记忆** (Packer et al., 2023; Qian et al., 2024; Liu et al., 2026b) 通过工具调用在有限的工作记忆和长期记忆层之间分页信息,适用于多轮对话智能体;**图式存储** (Edge et al., 2024; Gutiérrez et al., 2025) 使实体-关系边成为一等公民,适用于多跳组合。然而,在智能体任务上,单一粒度的存储被证明是不够的,因此采用**层次化或混合粒度存储** (Yang et al., 2026; Yue et al., 2026; Shu et al., 2026; Zhao et al., 2026),但代价是更高的构建开销和令牌成本。检索通常镜像存储形式:对图进行图遍历,对笔记和段落进行语义搜索,对层级进行工具调用分页。除此之外,有两个方向脱颖而出:使用 RL 训练 LLM 工具策略以管理检索 (Yue et al., 2026; Zhang et al., 2026b; Yan et al., 2025; Zhou et al., 2025; Wang et al., 2025; Yu et al., 2025) 将记忆工作转移到后训练阶段,但代价是训练计算;而**多阶段检索**(混合粒度存储的检索侧类比)则集成多个检索路径(例如,图遍历加语义搜索)并聚合其候选结果,以恢复任何单一路径遗漏的内容,但代价是每个查询需要更多检索调用 (Yang et al., 2026; Zhao et al., 2026)。 #### 效率 专注于成本的工作分为三种模式。**压缩**通过门控、共指消解和摘要来减少内容 (Liu et al., 2026a; Xu et al., 2026; Li et al., 2026a)。**离线委托**将工作转移到构建时间,以便检索不再需要 LLM (Tian et al., 2026; Gutiérrez et al., 2025; Yang et al., 2026)。**成本层路由**选择满足质量阈值的最便宜模块 (Zhang et al., 2026a)。这三种方式主要针对对话式问答进行验证,因此它们向智能体工作负载的迁移尚未经过测试。我们涵盖了第一种,并将其他作为未来工作。 ### 2.2 记忆基准 记忆基准分为三类。**问答基准**通过关于对话历史或长文档的问答来测试记忆 (Maharana et al., 2024; Li et al., 2026b; Wu et al., 2024; Lee et al., 2025; Hu et al., 2025; Ai et al., 2025; Pang et al., 2021; Bai et al., 2024; Hsieh et al., 2024)。**智能体问答基准**提出关于智能体轨迹的问题:AMA-Bench (Zhao et al., 2026) 使用带有因果依赖的机器生成轨迹;SAGE (Hu et al., 2026a) 针对深度研究智能体中的检索。**真实智能体任务基准**将记忆与行动耦合,使得记忆质量影响任务完成度;MemoryArena (He et al., 2026) 运行“记忆-智能体-环境”循环。现有基准通常只针对单一类别,并且很少报告令牌成本或延迟,使得无法沿着跨任务、成本和延迟轴进行原则性比较。 ## 3 评估设计 我们在三个轴向上衡量每个记忆系统:跨场景通用性、令牌成本和延迟。 #### 任务 表1列出了五个场景,涵盖了智能体系统中记忆的主要部署场景。 表1:五个任务场景。 #### 记忆基线 我们评估了八种记忆系统,外加一个最初为搜索设计的智能体框架基线 (Li et al., 2026c) (表2),涵盖了 §2.1 中架构设计空间。对于智能体任务,我们使用带有任务调优提示的 ReAct 智能体 (Yao et al., 2022)。 表2:按架构类别分组的记忆基线。 #### 指标 对于 LoCoMo、HotpotQA、AMABench 和 MemoryAgentBench,我们报告 Qwen3-32B LLM 评判分数 (Zhao et al., 2026),因为令牌 F1 会在详细基准上对长格式答案评分错误 (附录 B.1)。对于智能体任务,我们报告环境结果:ALFWorld 上的成功率;MA-Shop 上的过程得分(解决的子任务比例);以及 MA-Travel 上的 c-sPS,这是一种修正后的 MemoryArena sPS (He et al., 2026),只对用户在当前会话中询问的插槽进行评分。 #### 骨干模型 默认骨干模型是 Qwen3-32B (Yang et al., 2025),用于构建和解答;ALFWorld 上使用 Qwen2.5-7B-Instruct(Qwen3-32B 可轻松解决大部分回合)。嵌入模型全程使用 Qwen3-Embedding-4B。Qwen3-4B-Instruct 的消融实验见附录 D。 ## 4 实验结果 ### 4.1 概述 我们在表3中报告了跨基准的性能,在图1中报告了每种方法的预处理与推理成本。以下高层面模式浮现: 1. (1) **没有方法占据主导地位。** 每种基于索引的方法(预先构建结构化存储,如图、摘要笔记或多存储缓存的方法)在至少一个基准上落后于长上下文;DCI-Lite 保持了最佳的通用性排名。基于索引的方法的不足在智能体轨迹问答上最为明显(§4.2)。 2. (2) **长上下文比通常假设的更强大** (Hu et al., 2025; Zhao et al., 2026),并且在成本上仍具竞争力:重度索引方法(如 HippoRAG)除非大量未来查询命中同一存储,否则无法收回预处理成本,而较轻量级的替代方案(如 LightMem)虽然构建成本低,但得分低于长上下文。两者均未帕累托优于基线。 3. (3) **在动态智能体任务上,大多数方法在采样方差内收敛。** 4. (4) **令牌效率 ≠ 系统效率。** HippoRAG 和 AMA-Agent 以长串小型串行 LLM 调用的形式发出令牌,并伴有 KV 缓存失效,导致挂钟时间和 GPU 争用远超原始令牌计数所暗示的水平。这反映了记忆系统的基础设施亲和性,而仅靠令牌计数无法捕捉;每种方法的数值见附录 E。 §4 的其余部分遵循一个主线:何时在构建时间与查询时间提交记忆结构。§4.2 诊断了为什么早期提交在智能体问答上失败;§4.3 展示了智能体框架通过将提交延迟到查询时间而获胜;§4.4 描述了构建时间成本何时仍然值得;§4.5 以范围限制结束:在动态智能体任务上,没有记忆设计能够缩小差距。 表3:主要结果:所有基准上每种方法的准确性;每列最佳以**粗体**表示。A-ALF/A-Web/A-SQL 是 AMABench 领域;HQA 是 HotpotQA;AR/TTL/LRU/CR 是 MemoryAgentBench (Hu et al., 2025) 子任务;ALFW 是 ALFWorld;MA-S/MA-T 是 MemoryArena 购物/旅行。Gen. 列是跨基准的平均分数排名,MemoryAgentBench 通过对 AR/TTL/LRU/CR 取平均值计算一次。Variance 行报告了以百分点为单位的采样噪声下限。 引用自图注 图1:每个基准子任务中每种方法的预处理与推理成本(平均)。
相似文章
AdMem:面向任务求解智能体的高级记忆系统
本文介绍AdMem,一种面向基于LLM的智能体的统一记忆框架,整合语义记忆、情景记忆和程序性记忆,并采用双层短期与长期存储结构,通过多智能体架构实现自动记忆生成与自适应检索。实验表明,该方法在长程多轮任务中提升了鲁棒性和成功率。
从多模态经验中学会学习
本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。
从存储到经验:大语言模型智能体记忆机制演进综述
本综述论文提出了一种大语言模型(LLM)智能体记忆机制的演进框架,将其发展划分为三个阶段:存储、反思和经验。文章分析了长程一致性和持续学习等核心驱动力,旨在为下一代智能体的设计提供指导原则。
EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构
EvolveMem为LLM智能体引入了一种自演化记忆架构,通过LLM驱动的诊断和迭代研究周期来优化检索配置,在LoCoMo和MemBench等基准测试上取得了显著的性能提升。
先个性化再存储:面向长周期智能体的个性化记忆基准测试与学习
本文介绍了PerMemBench,这是首个用于评估基于LLM的智能体中个性化记忆系统的基准测试,并提出了一个会话级存储门控框架,该框架根据个体用户上下文调整记忆策略。