RecMem：基于重复的记忆整合方法，用于高效且有效的长期运行LLM智能体

arXiv cs.CL 2026/05/18 04:00 论文

llm memory-systems long-running-agents token-efficiency semantic-clustering embedding-models

摘要

RecMem是一种基于重复的记忆整合方法，适用于长期运行的LLM智能体，通过仅在语义相似的交互重复出现时调用LLM，可减少高达87%的令牌消耗，同时提高准确性。

arXiv:2605.16045v1 公告类型：新摘要：记忆系统通常将用户与智能体的交互组织为可检索的外部记忆，并通过克服LLM有限的上下文窗口，对长期运行的智能体至关重要。然而，现有的记忆系统会调用LLM处理每一个传入的交互以提取记忆，这种急切的记忆整合方案导致了大量的令牌消耗。为了解决这一问题，我们通过重新思考何时进行记忆整合，提出了RecMem。RecMem将传入的交互存储在潜意识记忆层，并使用轻量级嵌入模型进行编码以便检索。当观察到语义相似的交互持续重复出现时，才调用LLM提取情景记忆和语义记忆。这种基于重复的整合之所以有效，是因为这些交互对应一个信息丰富的语义簇，因此值得提取和总结。为了提高准确性，RecMem还引入了一种语义细化机制，用于恢复记忆提取中遗漏的细粒度事实。实验表明，RecMem将三种SOTA记忆系统的记忆构建令牌成本降低了高达87%，同时超越了它们的准确性。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:35

# RecMem：基于重复的记忆巩固，用于高效且有效的长时间运行LLM代理 来源：https://arxiv.org/html/2605.16045 戴梓杰¹ 邓诗源²† 关胜³ 田逸舟¹ 姚鑫⁴ 肖岩⁵ 程建初¹ ¹香港中文大学计算机科学与工程系 ³北京邮电大学计算机学院 ²华为云，⁴华为理论实验室，⁵武汉大学数学与人工智能研究所 caiusdai@link\.cuhk\.edu\.hk dengshiyuan@huawei\.com ###### 摘要 记忆系统通常将用户-代理交互组织为可检索的外部记忆，对于长时间运行的代理至关重要，因为它能克服LLM有限的上下文窗口。然而，现有的记忆系统对每个传入的交互都调用LLM进行记忆提取，这种**急切记忆巩固**方案会导致大量的令牌消耗。为了解决这个问题，我们提出了**RecMem**，通过重新思考何时应该进行记忆巩固。RecMem将传入的交互存储在一个潜意识记忆层中，并使用轻量级嵌入模型进行编码以供检索。只有当观察到语义相似的交互持续重复出现时，才调用LLM提取情节记忆和语义记忆。这种**基于重复的巩固**之所以有效，是因为这些交互对应一个信息丰富的语义簇，因此值得提取和总结。为了提高准确性，RecMem还引入了一种语义细化机制，用于恢复被记忆提取忽略的细粒度事实。实验表明，RecMem将三种SOTA记忆系统的记忆构建令牌成本降低了高达87%，同时超越了它们的准确性。我们的代码可在 https://github.com/CaiusDai/RecMem 获取。

RecMem：基于重复的记忆巩固，用于高效且有效的长时间运行LLM代理

戴梓杰¹ 邓诗源²††感谢：邓诗源博士为通讯作者。 关胜³ 田逸舟¹ 姚鑫⁴ 肖岩⁵ 程建初¹
¹香港中文大学计算机科学与工程系
³北京邮电大学计算机学院
²华为云，⁴华为理论实验室，⁵武汉大学数学与人工智能研究所
caiusdai@link\.cuhk\.edu\.hk dengshiyuan@huawei\.com

## 1 引言

大型语言模型（LLM）在广泛的任务中展示了强大的能力 Guo 等人 (2024 (https://arxiv.org/html/2605.16045#bib.bib5))；Shao 等人 (2024 (https://arxiv.org/html/2605.16045#bib.bib24))。然而，使LLM能够作为长时间运行的代理，需要积累跨扩展的用户-代理交互的经验 Jiang 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib9))。在实践中，这受到两个关键限制的阻碍：当前的LLM无法保留超出其有限上下文窗口的信息 Liu 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib16))，而且即使相关证据出现在长输入中，由于中间丢失效应 Liu 等人 (2023 (https://arxiv.org/html/2605.16045#bib.bib17))，它们也常常无法充分利用这些证据。为了解决这些限制，记忆系统成为构建长时间运行LLM代理的关键组件 Jiang 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib9))；Zhang 等人 (2024 (https://arxiv.org/html/2605.16045#bib.bib32))，并且已经提出了许多具有不同记忆结构和记忆提取方法的解决方案 Xu 等人 (2025b (https://arxiv.org/html/2605.16045#bib.bib30))；Chhikara 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib3))；Rezazadeh 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib23))；Packer 等人 (2024 (https://arxiv.org/html/2605.16045#bib.bib21))；Maharana 等人 (2024 (https://arxiv.org/html/2605.16045#bib.bib18))。例如，Zep Rasmussen 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib22)) 通过从交互中抽象出关系三元组来构建时间知识图谱；Mem0 Chhikara 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib3)) 从交互中提取原子事实用于基于相似性的检索；A-Mem Xu 等人 (2025b (https://arxiv.org/html/2605.16045#bib.bib30)) 将交互组织为连接的笔记，一个笔记可以更新其邻居的内容。

参见说明 (a) 急切记忆巩固 参见说明 (b) 基于重复的巩固（我们的）参见说明 (c) 任务准确率 参见说明 (d) 记忆构建成本
图 1：比较 RecMem 与现有记忆系统。(a) 现有系统对每个传入交互进行急切记忆巩固；(b) 我们的 RecMem 从潜意识记忆中选择性地进行基于重复的巩固；(c)-(d) 在 LoCoMo 基准上的任务准确率和记忆构建成本。

尽管现有记忆系统存在差异，但我们观察到它们都采用了**急切记忆巩固**方案。具体来说，对于每个传入的用户-物品交互，它们都调用LLM来提取事实，并将这些事实与现有记忆内容合并。这种方案避免了交互中信息的丢失，但导致了大量的记忆构建令牌成本，如图1 (https://arxiv.org/html/2605.16045#S1.F1) (d) 所示，这使得在实践中使用这些记忆系统成本高昂。我们认为，对每次交互都进行基于LLM的记忆巩固是过度的。例如，一些交互可能传达很少的信息或包含噪声，而一些交互与现有交互无关，可以直接查询而无需巩固。因此，通过更明智地选择何时进行记忆巩固，有可能降低记忆构建成本。类似的见解来源于认知科学。多重存储理论 (Atkinson and Shiffrin,1968 (https://arxiv.org/html/2605.16045#bib.bib2)) 和互补学习系统框架 (Kumaran et al.,2016 (https://arxiv.org/html/2605.16045#bib.bib13); O’Reilly et al.,2014 (https://arxiv.org/html/2605.16045#bib.bib20); McClelland et al.,1995 (https://arxiv.org/html/2605.16045#bib.bib19)) 都汇聚到一个共同原则：孤立的经验保留在短暂或快速编码的存储中，只有重复或反复出现的模式才会驱动巩固到稳定的长期记忆中。这一原则直接激发了 RecMem 的重复驱动巩固方案。

受这些见解的启发，我们提出了 RecMem，一个用于长时间运行代理的高效记忆系统，它以**重复驱动**的方式执行更少的基于LLM的记忆巩固。具体来说，RecMem 引入了一个潜意识记忆层，通过轻量级嵌入缓冲原始的用户-代理交互，从而实现经济高效的检索，而无需调用LLM。只有当传入的交互能在潜意识记忆中找到足够数量的语义相似或相关的交互时，才进行记忆巩固，并利用LLM从这些交互中提取情节摘要和语义事实。这之所以有效，是因为这些交互形成了一个信息丰富的语义簇，值得进行记忆巩固，这类似于认知科学中从瞬时记忆生成长期记忆。RecMem 还引入了**语义细化**机制以提高准确性。具体来说，基于LLM的提取，尤其是事件级的情节摘要，可能会省略细粒度但对查询关键的信息，导致长期记忆有损。我们的语义细化重新审视与每个情节记忆相关的原始交互，提取未被情节记忆捕获的缺失且持久的事实，并将其蒸馏为语义记忆，以避免信息丢失。

我们在两个具有挑战性的长期记忆基准（即 LoCoMo Maharana 等人 (2024 (https://arxiv.org/html/2605.16045#bib.bib18)) 和 LongMemEval-S Wu 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib28))）上对 RecMem 进行了实证评估，并与三个SOTA记忆系统（即 Mem0 Chhikara 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib3))、A-Mem Xu 等人 (2025b (https://arxiv.org/html/2605.16045#bib.bib30)) 和 MemoryOS Kang 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib12))）进行了比较。结果表明，RecMem 在两个数据集上都比所有基线取得了更高的问答准确率，同时大幅降低了记忆构建的令牌成本。特别是在图1 (https://arxiv.org/html/2605.16045#S1.F1) (d) 的 LoCoMo 基准上，RecMem 的令牌消耗比基线降低了高达 7.8 倍。此外，RecMem 的查询时令牌成本与现有记忆系统相当，因此构建时的节省转化为在长时间的交互历史中更低的端到端成本。我们的贡献总结如下：

- • 我们发现了现有 LLM 记忆系统中的一个基本低效问题：对每次交互进行**急切记忆巩固**导致高昂的记忆构建令牌成本。
- • 受认知科学启发，我们提出了**基于重复的巩固**，仅当传入的交互能找到足够数量的语义相似或相关的交互时才进行记忆巩固，从而节省令牌成本。
- • 我们提出了 RecMem，一个实现这一范式的三层记忆架构。通过结合轻量级潜意识存储和新颖的语义细化机制，RecMem 在显著降低令牌成本的同时实现了高准确率。

## 2 预备知识

### 2.1 问题设定：对话记忆

最近关于基于LLM的代理的研究越来越多地关注对话记忆，代理通过长期、多轮交互积累信息 Hu 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib8))；Xu 等人 (2025a (https://arxiv.org/html/2605.16045#bib.bib29))；Maharana 等人 (2024 (https://arxiv.org/html/2605.16045#bib.bib18))。形式上，我们将时间步 t 时可用的交互历史表示为序列 O₁:ₜ = {o₁, ..., oₜ}。每个交互单元 oₜ 定义为一个元组：
oₜ = (sₜ, xₜ, τₜ)   (1)
其中 sₜ ∈ {user, assistant} 表示发言者角色，xₜ 表示消息内容，τₜ 是时间戳。给定一个查询 q，目标是从源自 O₁:ₜ 的外部记忆中检索相关证据，以支持推理和响应生成。尽管对话设定可能看起来比一般记忆场景更具体，但它们捕捉了现实部署的一个基本属性：信息随时间流式到达，代理必须持续管理不断增长的交互历史，以支持未来的查询和推理 Zhang 等人 (2024 (https://arxiv.org/html/2605.16045#bib.bib32))。这种表述与检索增强生成（RAG）形成对比，后者通常假设静态或预摄入的知识源 Lewis 等人 (2021 (https://arxiv.org/html/2605.16045#bib.bib14))；Han 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib6))。在对话记忆中，关键挑战不在于检索（这可以很大程度上利用现有技术），而在于系统如何以在线方式从正在进行的交互中构建和更新底层记忆。

### 2.2 记忆系统

我们专注于在流式对话设定中，用于 LLM 代理的免训练、基于文本的外部记忆系统。为简洁起见，本文其余部分将此类系统称为**记忆系统**。参数化记忆方法 Fang 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib4))；Wang 等人 (2025a (https://arxiv.org/html/2605.16045#bib.bib26)) 需要重新训练或架构修改来吸收新信息，因此在我们设定中不太适用 Hu 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib8))，而基于强化学习的方法 Yan 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib31))；Wang 等人 (2025b (https://arxiv.org/html/2605.16045#bib.bib27)) 与我们的关注点正交，它们在给定的记忆架构之上运行。大多数现有记忆系统通过逐步将传入交互（或短时间段）转换为可检索的记忆单元（例如摘要 Kang 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib12))；Packer 等人 (2024 (https://arxiv.org/html/2605.16045#bib.bib21))；Zhong 等人 (2023 (https://arxiv.org/html/2605.16045#bib.bib33))、原子事实 Chhikara 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib3))；Wang and Chen (2025 (https://arxiv.org/html/2605.16045#bib.bib25)) 或结构化节点（如图/树）Hogan 等人 (2021 (https://arxiv.org/html/2605.16045#bib.bib7))；Rasmussen 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib22))；Rezazadeh 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib23))）来构建长期记忆，然后在查询时依赖基于相似性的检索或混合搜索 Kang 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib12))；Rasmussen 等人 (2025 (https://arxiv.org/html/2605.16045#bib.bib22)) 来提供证据。我们将记忆表示、检索机制和构建管道的详细分类推迟到附录 A (https://arxiv.org/html/2605.16045#A1)。

## 3 RecMem 框架

### 3.1 概述

RecMem 是一个三层记忆系统，其指导原则是并非所有交互都值得进行 LLM 级别的巩固。传入的消息首先被组织为原子交互单元，并写入**潜意识**存储，仅进行轻量级的结构化和向量化，使得原始交互历史可以通过基于嵌入的检索直接访问 (§3.2 (https://arxiv.org/html/2605.16045#S3.SS2))。在此存储的基础上，RecMem 执行**基于重复的巩固**：不是巩固每一轮交互，而是仅在系统观察到清晰证据表明相似交互内容重复出现时才调用基于LLM的处理，从而将LLM调用保留在聚合可能有益的情况下。一旦触发，RecMem 在选定的轮次上生成**情节**抽象 (§3.3 (https://arxiv.org/html/2605.16045#S3.SS3))，然后应用**语义细化**来恢复可能被情节抽象省略的细粒度、可重用的事实，基于情节及其底层交互 (§3.4 (https://arxiv.org/html/2605.16045#S3.SS4))。在查询时，RecMem 从潜意识、情节和语义存储中检索少量项目，并通过在合并上下文中条件化LLM来回答问题 (§3.5 (https://arxiv.org/html/2605.16045#S3.SS5))。我们使用情节记忆和语义记忆的方式遵循之前LLM记忆文献的惯例 (Li and Li,2024 (https://arxiv.org/html/2605.16045#bib.bib15); Wang and Chen,2025 (https://arxiv.org/html/2605.16045#bib.bib25))。具体来说，RecMem 中的情节记忆存储时间锚定的事件叙述，这是关于一个主题如何在多个交互轮次中演变的连贯摘要，具有明确的时间基础。语义记忆存储关于一般知识、用户偏好、约束和实体关系的原子事实。RecMem 的设计反映了人类记忆：大多数经验除非被重复激活，否则保持未巩固状态 Atkinson and Shiffrin (1968 (https://arxiv.org/html/2605.16045#bib.bib2)); O’Reilly et al. (2014 (https://arxiv.org/html/2605.16045#bib.bib20)); McClelland et al. (1995 (https://arxiv.org/html/2605.16045#bib.bib19))。通过避免对瞬时交互进行急切的基于LLM的巩固，RecMem 大幅...

RecMem：基于重复的记忆整合方法，用于高效且有效的长期运行LLM智能体

相似文章

SimpleMem: 面向大语言模型智能体的高效终身记忆

MemRefine：基于LLM的长程智能体记忆压缩框架

面向长周期LLM智能体的选择性记忆保留

DELTAMEM：基于残差树的LLM智能体增量经验记忆

AdMem：面向任务求解智能体的高级记忆系统

提交意见反馈