@dair_ai:关于LLM智能体长期记忆的优秀论文。(收藏)粗粒度的摘要会偏移,无约束的更新会导致信息损坏,……
摘要
AtomMem 为 LLM 智能体引入了一种长期记忆系统,将原子事实作为高效记忆单元,将其组织成层次化的事件结构和时间用户画像,在 LoCoMo 基准上达到了最先进水平。
查看缓存全文
缓存时间: 2026/06/20 14:36
关于LLM智能体长期记忆的优秀论文。
(收藏它)
粗粒度的摘要会漂移,不受约束的更新会破坏记忆,因此AtomMem将记忆单元设计得很小。
一个事实执行器(Fact Executor)从长时间的交互中提取高价值的原子事实,将它们组织成层次化的事件结构和时间轴上的用户画像,然后在检索时激活一个关联记忆图来连接碎片化的信息。
它在LoCoMo多会话基准测试上报告了最先进的性能,同时保持足够低的部署成本。
论文:https://arxiv.org/abs/2606.19847
在我们的学院学习构建有效的AI智能体:https://academy.dair.ai
通过原子事实为LLM智能体构建简单有效的记忆系统
来源:https://arxiv.org/html/2606.19847
Yanyu Yao1, Shangze Li1, Zhi Zheng1, Hui Zheng2, Qi Liu1, Tong Xu1, Enhong Chen1
1 中国科学技术大学认知智能全国重点实验室,合肥,中国
2 安徽大学,合肥,中国
{yyyao, lishangze, liuqilq}@mail.ustc.edu.cn, {zhengzhi97, tongxu, cheneh}@ustc.edu.cn, [email protected]
摘要
大型语言模型(LLMs)展现出强大的推理和生成能力,但其固定的上下文窗口限制了在多轮交互中积累和复用长期信息。现有的记忆增强系统通常以粗粒度且不稳定的方式构建记忆,依赖于低效的记忆表示或不稳定的无约束更新。为了解决这些挑战,我们提出了AtomMem,一个为高价值密度存储和稳定记忆演化而设计的长期记忆系统。AtomMem引入了一个事实执行器,从长形式交互中选择性提取高价值的原子事实,作为高效的记忆表示。随后,AtomMem将这些事实组织成层次化的事件结构和时间轴画像,捕捉连贯的情景上下文并随时间跟踪动态演变的用户属性。在检索时,系统激活一个关联记忆图来连接碎片化的记忆。在LoCoMo基准测试上的实验证实,AtomMem在各种推理任务中达到了最先进的性能,为部署智能个性化智能体提供了可扩展且经济可行的解决方案。实现代码已在 https://github.com/MINE-USTC/AtomMem 公开。
1 引言
大型语言模型(LLMs)在语言理解、推理和生成方面展示了卓越的能力 (OpenAI, 2023; Bubeck et al., 2023; Touvron et al., 2023)。最近的进展将这些模型扩展到能够进行跨越数天甚至数月的多轮对话的交互式智能体,要求这些智能体积累和组织有用的记忆。然而,随着这些基于LLM的系统被部署在日益复杂和长期的任务中,它们面临着可靠性下降的重大挑战 (Liu et al., 2024; Xiao et al., 2024)。受限于固定长度的上下文窗口,现有模型通常难以在扩展上下文中保持连贯性和准确检索。这常常导致实际失败,例如忘记用户偏好、重复先前已解决的问题,或与已建立的事实相矛盾。
为了解决这一限制,越来越多的研究探索了用外部记忆模块增强LLM。这些记忆增强型智能体旨在通过优化记忆管理和利用来提高长期性能,主要通过设计有效的记忆存储、更新和检索机制。像 Mem0 (Chhikara et al., 2025) 这样的先进系统集成了图数据库以增强关系组织,而 AMem (Xu et al., 2025) 则实现了无需预定义规则的动态记忆演化。
图1:架构比较。AtomMem通过将原子事实组织成关联图以实现精确的层次化检索,克服了先前方法中臃肿的存储和孤立的匹配。
尽管取得了这些进展,现有的记忆增强系统在构建可靠的长期记忆方面仍然面临根本性挑战,这源于一个基本困境。存储原始对话能最大限度地保留信息,但会以冗余噪声压垮检索增强生成范式 (Lewis et al., 2020)。这种臃肿迫使模型处理无关的上下文。相反,压缩表示实现了紧凑的格式,但不可避免地丢弃了细粒度细节并累积了LLM随时间产生的噪声。因此,在高信息密度和上下文保真度之间取得平衡至关重要。精确可靠的底层记忆表示是任何有效记忆系统的基本前提。
超越基本表示,用户记忆本质上是动态的。偏好、经验和目标自然会随着时间演变,要求系统有效地积累和维护一致的用户状态。最近的工作探索了动态记忆演化,但这些方法通常依赖频繁的LLM驱动的重写来更新现有条目。虽然这种设计实现了灵活的知识组织和持续适应,但无约束的更新引入了严重的不稳定性。幻觉或错误的编辑可能会重复修改同一个记忆条目,导致不受控制的扩展和原始事实的破坏。因此,设计稳定且可控的记忆更新机制仍然是长期记忆系统的另一个关键挑战。此外,有用的记忆通常分布在多个会话中。当前的记忆系统通常依赖于对孤立项进行平面检索。这种平面方法难以捕捉跨会话的复杂关联,无法恢复个性化辅助所需的关联证据。
在本文中,我们提出了AtomMem,一个以原子事实为中心的长期记忆系统,它将用户交互组织成层次化的记忆结构,并通过基于图的关联回忆来激活相关记忆。其核心是一个经过SFT微调的事实执行器,它通过选择高价值信息并执行轻量级推理(如共指消解和时间锚定),从原始对话中提取自包含的原子事实。作为记忆的基本语义单元,这些原子事实使得AtomMem能够通过将新信息与现有事件关联或通过语义和时间推理创建新事件来构建事件记忆,从而将孤立的事实转化为情景记忆。为了维护长期用户状态,AtomMem从积累的事实证据中构建时间轴画像记忆,以增量方式跟踪稳定的属性并适应偏好变化,同时保留历史信息。在检索时,AtomMem激活一个记忆图,该图通过实体重叠、共享事件和对话连续性连接事实,便于关联记忆的回忆。这些协调的组件共同实现了丰富而稳定的记忆表示,使LLM智能体能够在长期交互中保持对用户一致且可靠的理解。
我们的主要贡献总结如下:
- • 我们提出了AtomMem,一个以原子事实为中心的长期记忆框架,通过基于图的关联回忆生成记忆感知的响应。该框架为LLM智能体提供了稳定且可扩展的长期存储解决方案。
- • 我们引入了一个原子事实提取模块,将嘈杂的原始对话转换为带有结构化元数据的自包含存储单元。该模块为长期记忆提供了紧凑且忠实的基表示。此外,我们发布了一个高质量数据集,以促进稳健的对话事实提取的微调。
- • 在长期基准测试上的全面评估表明,AtomMem consistently优于最先进的基线。值得注意的是,我们简化的事实级变体以最小的计算成本实现了具有竞争力的性能,而完整的模块化设计则带来了进一步的显著收益。
2 相关工作
2.1 检索增强生成
检索增强生成(RAG)通过外部非参数知识增强语言模型,使生成输出能够基于检索到的证据,而不是仅仅依赖参数化知识 (Lewis et al., 2020)。像REALM (Guu et al., 2020)这样的早期框架证明,显式检索可以改进开放域问答,同时提供可解释性方面的优势。后续工作将RAG流水线改进到超越简单的“检索-读取”设计。先进的系统通过查询处理和神经重排序来优化检索质量 (Nogueira and Cho, 2019; Gao et al., 2023)。像ActiveRAG和Self-RAG (Jiang et al., 2023; Asai et al., 2024)这样的自适应变体进一步引入了动态检索时机和输出批评。在LLM智能体中,基于检索的访问已成为向智能体暴露外部知识和长期记忆的重要机制 (Park et al., 2023; Xi et al., 2023)。
2.2 LLM智能体的记忆
记忆增强型LLM智能体的架构设计根本上由其主要的记忆抽象定义。一些系统将记忆表示为文本经验或更高层次的反思。例如,Think-in-Memory (Liu et al., 2023)存储不断演变的历史思考,而RMM (Tan et al., 2025)则动态总结不同粒度的对话历史。第二类关注符号或关系记忆。这种方法将信息锚定在结构化对象上,例如RET-LLM (Modarressi et al., 2023)中的三元组,以及Mem0 (Chhikara et al., 2025)中的知识图谱。此外,像MemGPT (Packer et al., 2023)和MemoryOS (Kang et al., 2025)这样的框架通过显式的层次化接口管理记忆。最近的研究如A-Mem (Xu et al., 2025)和MEM1 (Zhou et al., 2025)也探索了自组织或学习型记忆策略。为了全面评估,像LoCoMo (Maharana et al., 2024)和LongMemEval (Wu et al., 2025)这样的数据集评估超长对话记忆,而面向个性化的基准如PERMA (Liu et al., 2026)则专门测试动态用户画像和偏好演化。
3 方法
图2:AtomMem的整体架构。它旨在支持长期个性化智能体的高密度记忆存储、稳定的用户状态演化以及高效检索。
AtomMem旨在将非结构化的对话流转换为结构化的、便于检索的记忆表示。它首先提取自包含的原子事实,并将相关事实整合到上下文事件记忆中,同时通过时间轴画像动态建模用户状态。在检索时,AtomMem通过一个记忆图激活相关记忆,并将激活的记忆整合以生成最终响应。
3.1 基表示:原子事实提取
随着交互变长,有用信息稀疏地分布在嘈杂的对话轮次中。此外,这些原始对话经常依赖隐式上下文,例如未解决的代词(如“他”、“它”)和相对时间指称(如“上周五”),这些在孤立检索时会变得模糊。因此,我们的目标是将原始对话会话转换为一系列结构化的、自包含的原子事实F,从而提供更优越的记忆表示。
3.1.1 原子事实提取器
为了解决冗余和噪声问题,我们引入了一个通过监督微调(SFT)训练的原子事实提取器,它执行基本的去噪和轻量级推理,如共指消解。由于生成高质量的原子事实需要复杂的推理,仅依赖启发式规则或零样本提示通常会产生次优结果。为了克服这一点,我们通过一个两阶段的数据构建流水线,构建了一个高质量的数据集 D(参见附录 A.1 了解数据构建细节)。
我们使用构建的数据集训练一个轻量级LLM。形式上,给定指令 I 和对话上下文 C,我们优化模型参数 θ 以最大化目标原子事实 F 的似然:
maxθ ∑(I,C,F)∈D log Pθ(F | I,C) (1)
通过在这个特定分布上进行微调,该模型充当一个高效的信息过滤器。它在信息进入记忆系统之前将原始交互压缩成密集表示,同时确保每个生成的事实是独立的,无需外部上下文即可理解。
3.1.2 结构化事实构建
虽然原子事实提取器提供了干净的文本内容,但高效的检索和记忆管理需要结构化的元数据。因此,我们将提取的文本封装进一个结构化原子事实中,作为记忆系统的最小语义单元。形式上,我们定义一个原子事实 F 为:
F = {id, c, v, P, K, T, E}
其中 id 是事实标识符,c 是提取器生成的独立文本,v 表示其密集语义嵌入。为了获得精确的符号元数据,我们利用LLM解析对话并提取以下内容:
相似文章
@dair_ai: // 记忆即模型 // 该论文为任何LLM增加一个单独训练的记忆模型,用于存储、检索和整合…
MeMo 引入了一种模块化记忆模型,可为任何 LLM 增强存储、检索和整合新知识的能力,无需重新训练或担心灾难性遗忘。它在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 等基准测试上优于基于 RAG 的方法。
DimMem:面向高效长期智能体记忆的维度结构化
DimMem 提出了一种用于 LLM 智能体的维度记忆框架,将记忆表示为具有显式字段的原子化、类型化单元,在 LoCoMo-10 和 LongMemEval-S 上实现了最先进的准确率,同时将 token 成本降低了 24%。
@dair_ai: // δ-mem: LLM的高效在线记忆 // 这是我本月看到的最优雅的记忆机制之一。大多数长…
本文介绍了δ-mem,一种轻量级在线记忆机制,它通过delta规则学习更新的紧凑型关联记忆状态来增强冻结的LLM,在记忆密集型基准测试中取得了显著改进,无需微调或上下文扩展。
Infini Memory:用于长期LLM智能体记忆的可维护主题文档
介绍了Infini Memory,一种用于LLM智能体的可维护基于文本的持久化记忆架构。它使用主题结构化文档和迭代检索来改进长期记忆使用,在MemoryAgentBench上达到了64.7%的得分。
@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…
本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。