探索智能体记忆系统的跨场景通用性：诊断与强基线

arXiv cs.AI 2026/06/04 04:00 论文

llm-agents memory-systems cross-scenario agentic-ai benchmark retrieval

摘要

本文评估了面向LLM智能体的八种记忆系统在五种不同场景下的表现，发现给予智能体对存储和检索的主动控制（而非被动管道）能够获得最佳的跨场景泛化能力，并由此提出了AutoMEM框架。

arXiv:2606.04315v1 Announce Type: new 摘要：LLM智能体会积累超出其上下文窗口的历史记录，这推动了关于记忆系统的研究日益增多。然而，大多数现有设计是针对单一场景（多轮对话或单一轨迹格式）调优的，几乎没有证据表明它们能泛化到部署中智能体遇到的异构轨迹。我们重新审视了八种记忆系统以及一个用于搜索问题的智能体框架，在五个场景上进行了评估：单轮问答、多轮对话、智能体轨迹问答、记忆压力测试以及长周期智能体任务。该框架通过工具调用自我管理纯文本文件存储，取得了最佳跨任务排名，这表明记忆性能的关键在于赋予智能体对存储和检索的主动控制，而非采用固定流水线后的被动存储。我们将这一见解实例化为AutoMEM，这是一个具有自我管理工具接口的智能体记忆框架，在我们评估的系统中实现了最佳的跨场景通用性。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:06

# 探索智能体记忆系统的跨场景通用性：诊断与强基线
来源：https://arxiv.org/html/2606.04315
Zhikai Chen¹* Jialiang Gu²*† Junyu Yin²*† Xianxuan Long¹ Shenglai Zeng¹ Xiaoze Liu³ Kai Guo¹ Keren Zhou² Jiliang Tang¹

¹密歇根州立大学  ²乔治梅森大学  ³普渡大学

###### 摘要

LLM 智能体积累的历史信息会超出其上下文窗口，这推动了关于记忆系统的研究文献日益增多。然而，大多数现有设计都针对单一场景（多轮对话或单一轨迹格式）进行调优，鲜有证据表明它们能够泛化到智能体在部署中遇到的异构轨迹。我们重新审视了八种记忆系统，以及一个针对搜索问题的智能体框架，在五种场景上进行评估：单轮问答、多轮对话、智能体轨迹问答、记忆压力测试和长周期智能体任务。该框架通过工具调用自我管理平面文本文件存储，取得了最佳的跨任务排名，这表明记忆性能的关键在于赋予智能体对存储和检索的主动控制权，而非依赖于固定流水线背后的被动存储。我们将这一见解实例化为 **AutoMEM**，这是一个具有自我管理工具接口的智能体记忆框架，在我们评估的系统中实现了最佳的跨场景通用性。

---

## 探索智能体记忆系统的跨场景通用性：诊断与强基线

Zhikai Chen¹*† Jialiang Gu²*† Junyu Yin²*† Xianxuan Long¹ Shenglai Zeng¹ Xiaoze Liu³ Kai Guo¹ Keren Zhou² Jiliang Tang¹
¹密歇根州立大学  ²乔治梅森大学  ³普渡大学

## 1 引言

大型语言模型（LLM）已从单轮聊天机器人 (Ouyang et al., 2022) 演变为通用智能体，能够进行规划、调用工具和执行长周期工作流 (Yao et al., 2022; Schick et al., 2023; Wang et al., 2024)。在这些场景中，模型积累了历史信息：用于支撑响应的知识语料库 (Lewis et al., 2020)、需要导航的代码库 (Jiménez et al., 2023; Heule et al., 2025)、用于规划的多步骤工作流 (Xie et al., 2024) 以及需要维护的用户状态 (Salemi et al., 2024)。记忆，即选择和组织过去信息的机制，使得 LLM 能够基于远超即时提示的信息来行动。

许多记忆系统已被提出 (Hu et al., 2026b)，但增加的复杂性是否有益正日益受到质疑 (Pollertlam and Kornsuwannawit, 2026; He et al., 2026)。核心问题在于**大多数现有记忆系统都是场景狭隘的**：每个系统都围绕单一场景进行调优，通常是多轮对话 (Wu et al., 2024; Maharana et al., 2024) 或一种智能体轨迹格式，而这些场景所奖励的特性差异显著 (Zhao et al., 2026)。在一个场景上胜出并不意味着在其他场景上也能胜出，而且很少有证据表明哪种设计能够泛化。

因此，我们通过**跨场景通用性**的视角重新审视现有设计：一个实用的记忆系统必须能够处理智能体在部署中遇到的异构轨迹，例如多轮对话、代码交互和浏览器日志。我们同时跟踪令牌成本和延迟，以确保通用性不以不切实际的高昂成本为代价 (Yang et al., 2026)。

我们评估了八种代表性记忆系统，外加一个专为搜索设计的**智能体框架** (Li et al., 2026c)，在五个任务族上进行评估：单轮问答、多轮对话问答、智能体轨迹问答、记忆压力测试和长周期智能体任务。这些系统涵盖了长上下文、笔记式、多存储层次化、图式和 RL 训练的设计。主要观察结果是，即使是这个现成的框架也取得了最佳的跨场景通用性：结构化记忆作为工具仍然有用，但仅靠它们本身过于场景狭隘，无法覆盖真实的智能体轨迹。要覆盖这种多样性，需要一个通过工具调用**自我管理记忆的智能体记忆框架**。我们将这一点实例化为 **AutoMEM**，它在我们评估的系统中取得了最佳的跨场景通用性。我们的主要贡献：

1. (1) 对八种记忆系统及一个智能体框架在五个任务族上进行跨场景评估，同时跟踪令牌成本、延迟和精确度。
2. (2) 实证发现：现有记忆系统在智能体轨迹上表现挣扎，表现为两种失败模式：**表征级**失败（构建时的模式丢弃了步骤级和动作级的证据）和**检索级**失败（被动检索无法浮出存储中保留的证据）；一个将检索延迟到查询时的智能体框架获得了最佳的通用性。
3. (3) **AutoMEM**，一个具有记忆工具调用接口的智能体框架，在 LoCoMo 上比原始智能体框架提升了 **49.6%**，在整体排名中提升了 **24.4%**。

## 2 相关工作

### 2.1 记忆设计

LLM 智能体的记忆设计追求两个互补目标：提升**质量**（准确性、能力、通用性）和提升**效率**（令牌成本、构建成本、延迟）。

#### 质量

记忆设计归结为两个耦合的问题：如何存储和更新过去的信息，以及如何检索它。在存储方面，核心选择是粒度。基线方法存储原始的切分段落并通过相似性搜索进行检索 (Lewis et al., 2020; Karpukhin et al., 2020)，在此基础上，三种更丰富的设计针对不同的访问模式：**原子笔记** (Chhablani et al., 2024; Zhong et al., 2023; Xu et al., 2025) 使每个事实成为可寻址、可编辑的记录，适用于演化的稳定事实负载；**OS 风格的分层记忆** (Packer et al., 2023; Qian et al., 2024; Liu et al., 2026b) 通过工具调用在有限的工作记忆和长期记忆层之间分页信息，适用于多轮对话智能体；**图式存储** (Edge et al., 2024; Gutiérrez et al., 2025) 使实体-关系边成为一等公民，适用于多跳组合。然而，在智能体任务上，单一粒度的存储被证明是不够的，因此采用**层次化或混合粒度存储** (Yang et al., 2026; Yue et al., 2026; Shu et al., 2026; Zhao et al., 2026)，但代价是更高的构建开销和令牌成本。检索通常镜像存储形式：对图进行图遍历，对笔记和段落进行语义搜索，对层级进行工具调用分页。除此之外，有两个方向脱颖而出：使用 RL 训练 LLM 工具策略以管理检索 (Yue et al., 2026; Zhang et al., 2026b; Yan et al., 2025; Zhou et al., 2025; Wang et al., 2025; Yu et al., 2025) 将记忆工作转移到后训练阶段，但代价是训练计算；而**多阶段检索**（混合粒度存储的检索侧类比）则集成多个检索路径（例如，图遍历加语义搜索）并聚合其候选结果，以恢复任何单一路径遗漏的内容，但代价是每个查询需要更多检索调用 (Yang et al., 2026; Zhao et al., 2026)。

#### 效率

专注于成本的工作分为三种模式。**压缩**通过门控、共指消解和摘要来减少内容 (Liu et al., 2026a; Xu et al., 2026; Li et al., 2026a)。**离线委托**将工作转移到构建时间，以便检索不再需要 LLM (Tian et al., 2026; Gutiérrez et al., 2025; Yang et al., 2026)。**成本层路由**选择满足质量阈值的最便宜模块 (Zhang et al., 2026a)。这三种方式主要针对对话式问答进行验证，因此它们向智能体工作负载的迁移尚未经过测试。我们涵盖了第一种，并将其他作为未来工作。

### 2.2 记忆基准

记忆基准分为三类。**问答基准**通过关于对话历史或长文档的问答来测试记忆 (Maharana et al., 2024; Li et al., 2026b; Wu et al., 2024; Lee et al., 2025; Hu et al., 2025; Ai et al., 2025; Pang et al., 2021; Bai et al., 2024; Hsieh et al., 2024)。**智能体问答基准**提出关于智能体轨迹的问题：AMA-Bench (Zhao et al., 2026) 使用带有因果依赖的机器生成轨迹；SAGE (Hu et al., 2026a) 针对深度研究智能体中的检索。**真实智能体任务基准**将记忆与行动耦合，使得记忆质量影响任务完成度；MemoryArena (He et al., 2026) 运行“记忆-智能体-环境”循环。现有基准通常只针对单一类别，并且很少报告令牌成本或延迟，使得无法沿着跨任务、成本和延迟轴进行原则性比较。

## 3 评估设计

我们在三个轴向上衡量每个记忆系统：跨场景通用性、令牌成本和延迟。

#### 任务

表1列出了五个场景，涵盖了智能体系统中记忆的主要部署场景。

表1：五个任务场景。

#### 记忆基线

我们评估了八种记忆系统，外加一个最初为搜索设计的智能体框架基线 (Li et al., 2026c) (表2)，涵盖了 §2.1 中架构设计空间。对于智能体任务，我们使用带有任务调优提示的 ReAct 智能体 (Yao et al., 2022)。

表2：按架构类别分组的记忆基线。

#### 指标

对于 LoCoMo、HotpotQA、AMABench 和 MemoryAgentBench，我们报告 Qwen3-32B LLM 评判分数 (Zhao et al., 2026)，因为令牌 F1 会在详细基准上对长格式答案评分错误 (附录 B.1)。对于智能体任务，我们报告环境结果：ALFWorld 上的成功率；MA-Shop 上的过程得分（解决的子任务比例）；以及 MA-Travel 上的 c-sPS，这是一种修正后的 MemoryArena sPS (He et al., 2026)，只对用户在当前会话中询问的插槽进行评分。

#### 骨干模型

默认骨干模型是 Qwen3-32B (Yang et al., 2025)，用于构建和解答；ALFWorld 上使用 Qwen2.5-7B-Instruct（Qwen3-32B 可轻松解决大部分回合）。嵌入模型全程使用 Qwen3-Embedding-4B。Qwen3-4B-Instruct 的消融实验见附录 D。

## 4 实验结果

### 4.1 概述

我们在表3中报告了跨基准的性能，在图1中报告了每种方法的预处理与推理成本。以下高层面模式浮现：

1. (1) **没有方法占据主导地位。** 每种基于索引的方法（预先构建结构化存储，如图、摘要笔记或多存储缓存的方法）在至少一个基准上落后于长上下文；DCI-Lite 保持了最佳的通用性排名。基于索引的方法的不足在智能体轨迹问答上最为明显（§4.2）。
2. (2) **长上下文比通常假设的更强大** (Hu et al., 2025; Zhao et al., 2026)，并且在成本上仍具竞争力：重度索引方法（如 HippoRAG）除非大量未来查询命中同一存储，否则无法收回预处理成本，而较轻量级的替代方案（如 LightMem）虽然构建成本低，但得分低于长上下文。两者均未帕累托优于基线。
3. (3) **在动态智能体任务上，大多数方法在采样方差内收敛。**
4. (4) **令牌效率 ≠ 系统效率。** HippoRAG 和 AMA-Agent 以长串小型串行 LLM 调用的形式发出令牌，并伴有 KV 缓存失效，导致挂钟时间和 GPU 争用远超原始令牌计数所暗示的水平。这反映了记忆系统的基础设施亲和性，而仅靠令牌计数无法捕捉；每种方法的数值见附录 E。

§4 的其余部分遵循一个主线：何时在构建时间与查询时间提交记忆结构。§4.2 诊断了为什么早期提交在智能体问答上失败；§4.3 展示了智能体框架通过将提交延迟到查询时间而获胜；§4.4 描述了构建时间成本何时仍然值得；§4.5 以范围限制结束：在动态智能体任务上，没有记忆设计能够缩小差距。

表3：主要结果：所有基准上每种方法的准确性；每列最佳以**粗体**表示。A-ALF/A-Web/A-SQL 是 AMABench 领域；HQA 是 HotpotQA；AR/TTL/LRU/CR 是 MemoryAgentBench (Hu et al., 2025) 子任务；ALFW 是 ALFWorld；MA-S/MA-T 是 MemoryArena 购物/旅行。Gen. 列是跨基准的平均分数排名，MemoryAgentBench 通过对 AR/TTL/LRU/CR 取平均值计算一次。Variance 行报告了以百分点为单位的采样噪声下限。
引用自图注 图1：每个基准子任务中每种方法的预处理与推理成本（平均）。

探索智能体记忆系统的跨场景通用性：诊断与强基线

相似文章

AdMem：面向任务求解智能体的高级记忆系统

从多模态经验中学会学习

从存储到经验：大语言模型智能体记忆机制演进综述

EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构

先个性化再存储：面向长周期智能体的个性化记忆基准测试与学习

提交意见反馈