SAGE: 用于智能LLM高效记忆演化的新颖性门控
摘要
SAGE提出了一种用于智能LLM记忆演化的新颖性门控,利用基于von Mises-Fisher的密度估计器来决定是否添加、合并或忽略新事实,在保持记忆质量的同时减少LLM调用。
arXiv:2605.30711v1 公告类型:新
摘要:智能LLM必须持续判断新提取的事实是应被添加、与现有记忆合并还是忽略,然而先前的工作更多关注检索和存储,而非原则性的写端控制。我们将记忆演化视为一个新颖性检测问题,并提出SAGE(球面自适应记忆演化门控),它使用基于von Mises-Fisher的记忆嵌入密度估计器对候选事实进行评分,并通过一个自适应阈值(跟踪记忆存储几何结构)对其进行路由。SAGE将明显新颖的事实解析为ADD,明显冗余的事实解析为NOOP,仅将不确定的案例发送至LLM合并步骤,从而减少昂贵的写时推理。在LoCoMo上,SAGE在所有七个开源权重骨干对比中,相对于Mem0取得了最佳平均token-F1;而在GPT-4o-mini上,它使添加阶段的API成本降低了3.4倍,添加阶段延迟降低了2.5倍,仅存在较小的平均评判分数差距。作为A-Mem的即插即用二进制门控,SAGE在五个模型上跳过了约16-18%的LLM调用,且在开源权重骨干上质量变化极小。这些结果表明,新颖性感知的写控制是提升长期智能记忆系统中记忆质量与系统效率的一个实用杠杆。
查看缓存全文
缓存时间: 2026/06/01 09:27
# SAGE:一种用于智能体大语言模型高效记忆演化的新颖门控机制
来源: https://arxiv.org/html/2605.30711
王思佳, Dhanajit Brahma11footnotemark:1, Ricardo Henao 杜克大学 \{sijia.wang, dhanajit.brahma, ricardo.henao\}@duke.edu
###### 摘要
智能体大语言模型需要持续判断新提取的事实是应该添加、与现有记忆合并,还是忽略。然而,现有工作更多地关注检索和存储,而非原则性的写入侧控制。我们将记忆演化视为一个新奇性检测问题,并提出了 SAGE(Spherical Adaptive Gate for memory Evolution,即用于记忆演化的球形自适应门控机制)。它通过一个基于 von Mises-Fisher 分布的记忆嵌入密度估计器来评分候选事实,并使用一个自适应阈值来跟踪记忆存储的几何结构进行路由。SAGE 将明显新奇的事实判定为“添加”,明显冗余的事实判定为“无操作”,仅将不确定的情况交给大语言模型进行合并处理,从而减少了代价高昂的写入时推理。在 LoCoMo 基准上,SAGE 在所有七个开源权重后端的对比中对 Mem0 取得了最佳平均 token-F1 分数;而在 GPT-4o-mini 上,它将添加阶段的 API 成本降低了 3.4 倍,添加阶段延迟降低了 2.5 倍,同时仅产生很小的平均评判分数差距。作为 A-Mem 的即插即用二元门控机制,SAGE 在五个模型上跳过了大约 16–18% 的写入大语言模型调用,且对开源权重后端的内存质量影响极小。这些结果表明,在长期智能体记忆中,基于新奇性的写入控制是同时提高内存质量和系统效率的实用杠杆。
## 1 引言
每个记忆系统,从关系数据库 (Codd, 1970) 到现代大语言模型智能体 (Park et al., 2023; Packer et al., 2023),都必须依次解决三个问题:决定*写入*什么,组织它以便能够被*找到*,以及在需要时*检索*正确的信息。在智能体大语言模型记忆领域,社区已经在后两个问题上投入了大量精力——嵌入模型 (Peña and Herbold, 2025)、向量索引 (Douze et al., 2025; Johnson et al., 2019)、混合检索 (Ma et al., 2020; Sawarkar et al., 2024; Hsu and Tzeng, 2025)、知识图谱 (Rasmussen et al., 2025)——而第一个问题得到的关注则相对较少。然而,写入决策可以说是更重要的一个:从未被写入的记忆无法被检索,而被错误写入的记忆(重复、与无关事实合并或过早删除)将损害涉及该记忆的下游查询。这个写入决策的难度取决于记忆的范式。
虽然标准的检索增强生成(RAG)的写入几乎是免决策的:分段、嵌入、追加 (Karpukhin et al., 2020),但长期智能体系统无法承担这种奢侈。一个与用户交互数周或数月的智能体必须追踪一个不断变化的状态——变化的偏好、转移的目标和被纠正的事实。这迫使智能体记忆系统直面语义 CRUD 的困境 (Lyu et al., 2025; Lee et al., 2024a):它们必须用自己的自然语言编辑自己的知识库,不断决定是添加、更新、合并还是丢弃信息,而不仅仅是积累信息。当前的系统将这个决策委托给大语言模型:Mem0 发起一个工具调用,联合路由并重写每批提取的事实 (Chhikara et al., 2025);A-Mem 则增加了用于笔记构建和邻居演化的额外调用 (Xu et al., 2025)。这些设计产生了自适应的记忆存储,但也使写入路径成为成本的主要来源。我们认为,缺失的替代方案是一个*新奇性门控机制*:一种廉价、闭合形式的测试,它将明显新的事实路由到“添加”,将明显冗余的事实路由到“无操作”,仅将模棱两可的情况交给大语言模型进行合并调用。
本文做出了三项贡献:i) 将智能体大语言模型中的记忆演化框架化为一个新颖性检测问题,阐明了为何写入侧控制是影响内存质量和系统效率的杠杆。ii) 提出了 SAGE(用于记忆演化的球形自适应门控机制),这是一个理论上有根据的新奇性门控机制,其分数通过使用 von Mises-Fisher 密度估计计算,并配有一个自适应阈值,该阈值跟踪记忆存储的演变几何结构。iii) 在两个设置下提供了证据:作为一个完整系统,SAGE 在所有七个开源权重后端上,针对 Mem0 在 token-F1 指标上获胜(7/7),同时在 GPT-4o-mini 上将添加阶段的 API 成本降低了 3.4 倍,添加阶段延迟降低了 2.5 倍;作为 A-Mem 的即插即用的“无操作”门控机制,它在五个模型上跳过了 16–18% 的写入大语言模型调用,且 token-F1 变化极小。
## 2 相关工作
**智能体大语言模型的记忆。** 长期记忆已成为大语言模型智能体研究中的核心主题,因为单纯的上下文扩展并不能可靠地解决多会话推理问题 (Zhang et al., 2024; Maharana et al., 2024)。先前的工作大致可分为三类。*检索与压缩*方法将长历史记录简化为可检索的摘要:MemoryBank (Zhong et al., 2024) 应用了基于艾宾浩斯遗忘曲线的遗忘机制,ReadAgent (Lee et al., 2024b) 将对话压缩为要点记忆,Generative Agents (Park et al., 2023) 通过定期的大语言模型驱动的反思来整合观察结果。*结构化与层次化*方法施加了更丰富的组织方式:Zep (Rasmussen et al., 2025) 和 Mem0 (Chhikara et al., 2025) 维护了时间或实体关系的知识图谱,而 MemGPT (Packer et al., 2023) 引入了操作系统风格的分页机制,在工作记忆和外部存储之间进行切换。最后,*学习型表示*如 MEM1 (Zhou et al., 2025) 通过端到端的强化学习训练了一个紧凑的内部状态。在所有这三类方法中,写入策略要么是固定的(仅追加、遗忘曲线、启发式驱逐),要么完全委托给基于每个事实的大语言模型判断;对记忆演化进行高效的写入侧控制仍然是一个未解决的问题。
图 1: 记忆演化问题概述及我们提出的方法 SAGE。
**记忆演化。** 最近的智能体记忆系统将记忆视为一个可编辑的结构,而不是一个仅追加的日志。Mem0 (Chhikara et al., 2025) 提取显著事实,并使用一个大语言模型驱动的控制器在添加、更新、删除和无操作之间进行选择。A-Mem (Xu et al., 2025) 将其扩展到完整的记忆演化,在新证据到来时构建带有上下文描述的结构化笔记并重写链接的邻居。较新的一条工作线将提示驱动的写入控制替换为强化学习:Memory-R1 (Yan et al., 2025) 通过 PPO/GRPO 训练了一个专用的记忆管理器,其奖励来自下游问答性能;Mem-α (Wang et al., 2025) 类似地使用强化学习来优化核心、情节和语义存储中的记忆构建,展示了强大的长度泛化能力。总体而言,先前的工作表明,写入侧记忆控制是必不可少的,但现有方法处于两个代价高昂的极端:推理时重复的大语言模型思考或训练时耗时的强化学习优化。我们的工作探索了设计空间中的第三个点,将记忆演化视为一个新颖性感知的控制问题,系统首先评估传入的事实是否足够新以证明需要编辑记忆。这种框架产生了一个轻量级、与几何结构对齐的控制器,它保留了自适应记忆演化的优势,同时避免了纯大语言模型路由的推理开销和基于强化学习的策略学习的训练开销。
## 3 方法
一个智能体大语言模型记忆系统会在跨对话会话的过程中维护一个持久的事实和观察存储。在每次用户交互中,它从当前轮次中提取候选事实,例如偏好、目标或上下文细节。对于每个候选事实,系统在写入侧做出三个动作之一的决策:添加,将事实存储为新的记忆;更新,将事实与已有的、能被其完善、纠正或取代的记忆合并;无操作,忽略该事实,因为信息已被当前记忆存储覆盖。我们将做出这个决策的组件称为路由控制器。图 1 总结了该工作流程,并展示了新颖性分数门控机制相对于候选事实提取、新颖性评分和更新时推理的运行位置。在本节中,我们将写入侧记忆控制形式化为一个新奇性检测问题,并介绍了 SAGE(用于记忆演化的球形自适应门控机制)作为路由控制器。我们首先定义该问题,然后引入 von Mises-Fisher (vMF) 分布作为核密度估计器的基础,用于评估每个候选事实相对于当前记忆存储的新颖性,并通过自适应阈值将其路由到添加、更新或无操作。
### 3.1 问题定义
我们首先定义系统组件,然后形式化决策问题。一个*已存储的记忆项*是一个之前从用户交互中提取并提交到持久存储的候选事实(例如,“用户更喜欢上午开会”)。每个记忆项由一个句子嵌入模型 (Reimers and Gurevych, 2019) 嵌入并 L2 归一化到单位超球面 S^{d-1} = {z ∈ R^d: ||z||_2 = 1} 上。因此,当前的记忆范围是一个单位范数嵌入向量的集合 M = {m_1, ..., m_N},其中 m_i ∈ S^{d-1}。在实践中,这个范围由存储的记忆项及其对应的嵌入向量组成:下游记忆写入和重写操作是对关联的记忆项进行的,如 Mem0 (Chhikara et al., 2025) 和 A-Mem (Xu et al., 2025) 等先前的工作;而嵌入向量则在路由或检索时使用。在每次*交互*(一个对话轮次或会话)中,系统通过调用大语言模型提取一个或多个候选事实,同样遵循 Mem0 和 A-Mem 等系统中使用的事实提取阶段。令 c 表示一个候选事实,c ∈ S^{d-1} 为其归一化嵌入。然后路由控制器必须根据给定的候选事实 c 决定采取哪个决策。
### 3.2 从记忆演化到新奇性检测
路由是困难的,因为不同的错误有不同的代价:过于保守的控制器会丢弃新信息;过于宽松的控制器会积累近重复内容,从而降低检索质量;而不可靠的控制器可能会混淆相关但不同的事实(例如,将“航班早上 8 点起飞”与“会议早上 8 点开始”合并),从而破坏准确的记录。Mem0 (Chhikara et al., 2025) 对每批候选事实都调用大语言模型控制器,无论其新颖性如何;A-Mem (Xu et al., 2025) 增加了进一步的大语言模型调用来构建笔记并重写附近的存储记忆,以使相关笔记保持一致。在这两种方法中,路由成本都与*所有*候选事实成比例。
因此,我们在任何更新时的大语言模型调用之前引入一个新颖性分数作为第一路由阶段。目标是将可能新的事实与可能冗余的事实分离开来,并仅将剩余的不确定情况发送给大语言模型更新步骤。此处,不确定情况指的是其分数没有强烈支持“添加”或“无操作”的情况。这个门控机制通过仅对不确定情况而非每个候选事实保留基于大语言模型的更新,从而降低了写入时成本。在我们的实验中,与我在七个后端上的八个骨干模型中的表现相比,这个决策阶段将大语言模型调用减少了 60%–90%。据我们所知,现有的记忆演化系统不包含这种显式的路由门控机制;但是,这主要是因为先前的工作优先考虑记忆质量和适应性,而不是在写入时最小化控制器成本。下一节将详细描述门控机制本身。
嵌入几何结构也暗示了如何构建这个门控机制。句子嵌入记忆系统操作于 L2 归一化向量,通过余弦相似度进行比较 (Reimers and Gurevych, 2019; Karpukhin et al., 2020),对于单位向量,余弦相似度就是它们的内积,因此语义比较由方向而非幅度驱动。
在此设置下,新颖性不应仅依赖于最近的存储记忆,还应依赖于周围记忆提供的支持程度。例如,两个候选事实可能与同一个记忆项具有相同的余弦相似度,但对于记忆范围而言,它们的新颖性可能不同:一个可能位于已经被几个相似记忆占据的区域,而另一个则位于一个更孤立的记忆附近。第一个候选事实的新颖性较低,因为它得到了现有记忆集更好的支持。
这些观察结果表明,基于新颖性分数的廉价路由规则应该:i) 计算量小,以便许多候选事实无需大语言模型调用即可解决;ii) 在与检索相同的内积几何结构下运行;iii) 考虑附近存储记忆的密集程度,以估计候选事实是否冗余。捕捉这种支持度的一种自然方法是核密度估计(KDE),它通过在每个存储记忆周围放置一个局部核并求和它们的贡献来对一个点进行评分。由于嵌入是单位范数的方向向量,且检索依赖于角度相似性,我们使用一个仅依赖于方向的核。von Mises-Fisher (vMF) 分布 (Mardia and Jupp, 1999; Banerjee et al., 2005) 是 S^{d-1} 上方向数据的标准模型,因此它是球形 KDE 的一个合适核。具有平均方向 μ ∈ S^{d-1} 和浓度参数 κ > 0 的 vMF 密度为 f(c | μ, κ) = C_d(κ) exp(κ μ^T c),其中 C_d(κ) 是一个仅依赖于 d 和 κ 的归一化常数。在我们的 KDE 中,该密度作为以 eac相似文章
SAGE:用于 LLM 知识评估的可扩展自动化鲁棒性增强
本文介绍了 SAGE,这是一个用于 LLM 知识评估基准测试的可扩展自动化鲁棒性增强框架。该框架使用经过强化学习微调的小模型,以低于现有方法的成本生成和验证问题变体。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。
@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…
本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。
STALE:LLM智能体能否识别记忆何时失效?
本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。
从存储到经验:大语言模型智能体记忆机制演进综述
本综述论文提出了一种大语言模型(LLM)智能体记忆机制的演进框架,将其发展划分为三个阶段:存储、反思和经验。文章分析了长程一致性和持续学习等核心驱动力,旨在为下一代智能体的设计提供指导原则。