往昔即序章:面向序列进化LLM记忆的选择性更新插件控制器
摘要
介绍Janus,一种用于LLM的插件式记忆控制器,通过记忆动量触发器(Memory Momentum Trigger)和紧凑混合评估集,选择性接受或拒绝候选记忆更新,在多个数据集上平均准确率提升+2.7至+4.6个百分点。
arXiv:2606.31121v1 公告类型:新
摘要:序列进化LLM记忆使智能体能够重用过去的经验,但现有系统通常直接部署每个本地生成的记忆更新,而不检查它是否改善了未来行为。结果是,有助于当前任务的更新可能会覆盖有用知识、引入过具体规则或使最终记忆偏向最近示例。我们提出Janus,一个插件式记忆控制器,用于决定接受候选记忆更新还是保留之前的记忆。为了高效做出这一决定,Janus使用记忆动量触发器(Memory Momentum Trigger)来识别记忆更新轨迹中的可疑偏差,并通过在覆盖性、边界性和新颖性任务的紧凑混合评估集上比较新旧记忆,而不是重放完整历史。Janus是方法无关的,它包裹现有更新器而不改变其更新规则。在六个数据集、两个骨干LLM和两个记忆更新器上,Janus相较于对应的基础更新器,平均准确率提升了+2.7至+4.6个百分点。
查看缓存全文
缓存时间: 2026/07/01 05:37
# 往事可鉴:面向顺序演进的大语言模型记忆选择性更新的插件式控制器
来源:https://arxiv.org/html/2606.31121
陈子涵♠, 董松伟♠, 石承帅♣, 王鹏♠, 王松♠, 申聪♠, 李俊冬♠ ♠弗吉尼亚大学, ♣普林斯顿大学, ♠中佛罗里达大学, \{brf3rx, hxt5ap, pw7nc, cong, jundong\}@virginia\.edu cs1083@princeton\.edu, song\.wang@ucf\.edu
###### 摘要
顺序演进的大语言模型记忆使得智能体能够复用过去的经验,但现有系统通常直接部署每个本地生成的记忆更新,而不检查它是否能改善未来的行为。结果是,有助于当前任务的更新可能会覆盖有用的知识、引入过特定的规则,或将最终记忆偏向于最近的示例。我们提出 Janus,一个插件式记忆控制器,用于决定是接受候选记忆更新还是保留之前的记忆。为了高效做出这一决策,Janus 使用记忆动量触发器来识别记忆更新轨迹中的可疑偏离,并在一个包含覆盖任务、边界任务和新任务的小型混合评估集上比较新旧记忆,而不是重放全部历史。Janus 是方法无关的,它可以包裹现有的更新器而不改变其更新规则。在六个数据集、两个骨干大语言模型和两个记忆更新器上,与相应的基础更新器相比,Janus 的平均准确率提升了 +2.7 到 +4.6 个百分点。
往事可鉴:面向顺序演进的大语言模型记忆选择性更新的插件式控制器
陈子涵♠, 董松伟♠, 石承帅♣, 王鹏♠, 王松♠, 申聪♠, 李俊冬♠
♠弗吉尼亚大学, ♣普林斯顿大学, ♠中佛罗里达大学,
\{brf3rx, hxt5ap, pw7nc, cong, jundong\}@virginia\.edu
cs1083@princeton\.edu, song\.wang@ucf\.edu
## 1 引言
大语言模型(LLM)越来越多地被部署为顺序任务求解智能体,它们通过外部记忆从过去的交互中学习(Xiang 等人,2026;Fang 等人,2025b;Wei 等人,2025)。在这种设置下,LLM 反复遇到任务、生成答案、接收反馈并更新其记忆以供将来使用。由此产生的轨迹包含成功的解决方案、失败的尝试、反馈信号以及中间的推理轨迹,这些都可以作为可重用的经验来改善未来的决策(Zhao 等人,2024;Wei 等人,2025;Suzgun 等人,2026;Zhou 等人,2025)。这种形式的*顺序演进记忆*超越了静态的对话回忆:记忆不仅仅是过去交互的记录,更是一种测试时自适应机制,它塑造了 LLM 在未来任务上的行为。这类系统对于推理助手(Ho 等人,2025)、工具使用智能体(Wang 等人,2025b)以及交互式决策系统(Zheng 等人,2025;Agrawal 等人,2025)至关重要,因为其性能不仅依赖于当前输入,还依赖于累积的经验。
参见标题
参见标题
图 1:顶部:现有的顺序记忆更新并不能保证最终记忆能更好地支持未来任务。底部:在 GPQA 上,两种顺序记忆方法的中间记忆快照表现出非单调的测试集性能,这证明了需要控制哪些记忆更新被部署。
这些系统背后的常见机制是利用当前任务的反馈来更新记忆(Wang 等人,2025c;Wei 等人,2025)。这种反馈通常以自然语言信号的形式表达,有时被视为一种*文本梯度*:环境并不提供参数上的数值梯度,而是提供文本反馈,提示智能体应如何为未来任务修改其推理、策略或记忆。现有的顺序记忆方法通常遵循一个检索–求解–更新的循环:智能体检索记忆,求解当前任务,然后使用当前轨迹和反馈来更新记忆(Suzgun 等人,2026;Zhao 等人,2024;Wei 等人,2025)。这种设计直观且高效,但也引入了一个根本性风险。每次更新通常都针对最近的任务进行局部优化,而其对于最终记忆状态的影响却很少被全局评估(图 1)。结果,一个对于当前任务看似有用的记忆更新可能会覆盖先前有用的知识,引入嘈杂的任务特定规则,或将记忆偏向于最近的示例。因此,关键挑战不仅在于如何生成记忆更新,还在于如何决定是否应该实际部署一个提议的更新。
这就产生了一个记忆验证问题。理想情况下,在部署候选记忆之前,智能体应该估计它是否能在当前任务之外提升性能。获得这种信号最直接的方法是将先前记忆和候选记忆在近似于未来任务分布的任务上进行对比。由于未来不可预知,先前遇到的任务提供了一个自然的代理。然而,在全部历史任务上验证每一个候选记忆在计算上是不可行的:重放成本随着已见任务的数量增长,并且会在每次更新后引入显著的延迟。一种更廉价的方法是每隔固定步数 N 对记忆进行比较,但这种调度是启发式的,可能会遗漏在计划检查之间发生的有害更新。类似地,仅使用一个固定的小型重放集可以降低成本,但可能使部署决策过拟合于过时的示例。因此,一个有效的记忆控制器必须回答两个相互关联的问题:*何时*应该比较新旧记忆,以及应该使用*什么*任务来进行比较?
为了解决上述挑战,我们提出了 Janus,一个插件式记忆控制器,它包裹现有的顺序记忆更新器,并决定每个候选记忆更新是应该被接受还是拒绝。Janus 并不将每次生成的记忆更新视为自动有益的,而是将记忆更新视为一个部署决策:只有当候选记忆可能提升最终记忆对未来任务的效用时,它才应替换先前的记忆。Janus 引入了两个关键设计来使这一决策高效。首先,它使用一个内存动量触发器(MMT)来决定何时应该显式地比较新旧记忆。MMT 并非在每次任务后或固定间隔触发比较,而是跟踪记忆变化的轨迹,并在候选更新显著偏离近期的更新方向时触发比较,这表明该更新可能引入有用的新知识,也可能将记忆扭曲为偏向于最近任务的特定信息。其次,当比较被触发时,Janus 在一个紧凑的混合评估批上评估先前记忆和候选记忆,而不是重放全部任务历史。这个批结合了一个存储的支持集(包含代表已见任务分布的覆盖任务和记忆选择先前曾改变正确性的边界任务)以及一个新近遇到的任务切片,以避免决策过拟合于固定的支持集。通过这种方式,Janus 通过只对可疑更新进行选择性测试来改善记忆部署,同时保持重放成本可控。我们的主要贡献总结如下:
- **记忆部署挑战。** 我们识别出顺序演进 LLM 记忆系统的一个关键局限:局部生成的记忆更新并不一定是全局有用的,盲目接受它们可能会产生偏向于噪声任务特定信息的最终记忆。
- **高效的插件式记忆控制。** 我们提出了 Janus,一个方法无关的控制器,它包裹现有的记忆更新器,并高效地决定是接受还是拒绝候选记忆更新。Janus 结合了一个内存动量触发器和一个紧凑的混合评估批(涵盖覆盖任务、边界任务和新任务),使得无需修改底层更新器或重放全部任务历史,即可进行新旧记忆选择。
- **强有力的实验结果。** 在六个数据集、两个骨干 LLM 和两个顺序记忆更新器骨干上,Janus 一致地提升了最终记忆的实用性,与相应的基础更新器相比,平均提升幅度在 +2.7 到 +4.6 个百分点之间。
## 2 方法
### 2.1 问题设置
参见标题
图 2:Janus 概览。给定一个任务和当前记忆 M_{t-1},基础更新器提出一个候选记忆 \widehat{M}_{t}。Janus 作为一个插件式控制器,决定是部署这个候选记忆还是保留先前的记忆。它首先使用一个内存动量触发器来检测候选更新是否偏离了最近的记忆更新轨迹。如果被触发,Janus 在由覆盖任务、边界任务和新任务组成的紧凑混合评估集上比较 M_{t-1} 和 \widehat{M}_{t},并部署评估性能更好的记忆。如果未被触发,Janus 直接接受候选记忆以避免不必要的重放。
遵循 Wei 等人(2025),我们考虑一个顺序演进记忆设置,其中 LLM L 在维护外部记忆的同时解决一系列任务。令 D = {(x_t, y_t)}_{t=1}^T 表示任务序列。在步骤 t 时,模型使用先前的记忆 M_{t-1} 来预测 \hat{y}_t = L(x_t, M_{t-1})。在接收到反馈 f_t(如正确性信号或文本批评)后,基础记忆更新器提议一个修订后的记忆:
\widehat{M}_{t} = \texttt{Update}\left(M_{t-1}, (x_t, \hat{y}_t, f_t), L\right). (1)
现有的顺序记忆方法通常通过设置 M_t = \widehat{M}_{t} 直接部署这个候选记忆。相反,Janus 将记忆更新视为一个部署决策:给定 M_{t-1} 和 \widehat{M}_{t},它选择
M_t \in \{M_{t-1}, \widehat{M}_{t}\}, (2)
目标是维护一个最终记忆 M_T,使其能够很好地泛化到未来未见过的任务上。
### 2.2 Janus:插件式记忆控制
如图 1 所示,盲目接受每一个记忆更新可能会使 LLM 得到一个无法支持未来未见任务的最终记忆。受此观察启发,我们提出了 Janus,一个插件式控制器,它包裹基础记忆更新器,并决定每个候选记忆是否应该被部署。在解决第 t 个任务后,基础更新器基于先前的记忆 M_{t-1} 和当前的交互提出一个候选记忆 \widehat{M}_{t}。Janus 并不直接设置 M_t = \widehat{M}_{t},而是选择是接受候选记忆还是保留先前的记忆。这一设计解决了顺序记忆控制中的两个核心挑战:*何时*比较先前记忆和候选记忆,以及*使用什么*任务进行比较。对于第一个挑战,Janus 引入了一个内存动量触发器,它检测记忆更新轨迹中的可疑偏离,并避免不必要的比较。对于第二个挑战,Janus 使用一个紧凑的混合评估集,结合了代表性任务、记忆敏感任务和新任务,以较低的成本近似全历史重放。
#### 内存动量触发器(MMT)。
理想情况下,我们会在每次记忆更新部署前对其进行验证。然而,在每次任务后比较 M_{t-1} 和 \widehat{M}_{t} 会带来显著的重放成本,而按固定间隔(例如每 N 步)触发比较是启发式的,可能会遗漏突然的有害更新。Janus 将记忆更新视为一个轨迹,并在候选更新显著偏离近期记忆演化时才触发比较。设 φ(·) 表示一个将记忆状态映射到向量空间的文本编码器。我们将候选更新方向表示为
z_t = φ(\widehat{M}_t) - φ(M_{t-1}). (3)
Janus 维护先前更新方向的指数移动平均:
m_t = β m_{t-1} + (1 - β) z_t, (4)
其中 β 控制记忆动量的强度。直观理解是,当候选更新实质上改变了记忆演化的近期轨迹时,比较最有价值。即使任务以打乱的顺序到达,连续的候选更新仍然可能引起对记忆的一致变化,对应于增量式改进而非重大的记忆转变。在这种情况下,反复比较新旧记忆带来的额外收益有限。相反,一个陡峭的方向偏离表明候选记忆可能会显著改变已部署的记忆:它可能引入有用的新知识,但也可能用最近任务特定的内容覆盖广泛有用的信息。因此,Janus 将历史动量 m_{t-1} 视为近期记忆演化的紧凑摘要,并利用方向的失调作为需要显式验证的信号。
具体来说,Janus 在以下情况下触发新旧记忆的比较:
\cos(z_t, m_{t-1}) < τ, (5)
其中 τ 是一个阈值。如果触发器未被触发,Janus 直接接受候选记忆,即 M_t = \widehat{M}_t。如果触发器被触发,Janus 在一个紧凑的评估集上评估 M_{t-1} 和 \widehat{M}_t,并部署性能更好的记忆状态。
#### 混合触发时评估集。
当内存动量触发器被触发时,Janus 需要决定候选记忆 \widehat{M}_t 是否应替换当前记忆 M_{t-1}。一个可靠的比较应近似于全历史重放,但在所有先前已见任务上进行评估会使重放成本随任务流线性增长。因此,Janus 构建了一个紧凑的混合评估集,服务于三个目标:覆盖先前已见任务的全局支持,关注对记忆变化敏感的任务,以及纳入新遇到的任务。形式化地,在触发时刻 t,Janus 在两个记忆状态下评估
\mathcal{E}_t = \mathcal{S}^{\mathrm{cov}}_t \cup \mathcal{S}^{\mathrm{bdry}}_t \cup \mathcal{F}_t, (6)
其中 \mathcal{S}^{\mathrm{cov}}_t 是一个覆盖集,\mathcal{S}^{\mathrm{bdry}}_t 是一个边界集,\mathcal{F}_t 是一个新集。覆盖集总结了先前已见任务的大致分布,边界集存储了对记忆敏感的任务,在这些任务上记忆选择先前已改变了智能体的行为,而新集则注入了自上次触发以来遇到的任务。这些子集共同提供了一个有成本上限的近似。相似文章
一个分数就够了吗?重新思考序列演化LLM记忆的评价
引入SeqMem-Eval,一种用于序列演化LLM记忆的诊断评估框架,测量超越聚合指标的多个维度,揭示适应性与稳定性之间的权衡。
更少的上下文,更高的准确性:一种用于LLM代理的双时态记忆引擎,其中精简检索的上下文胜过了完整历史
本文介绍了Engram,一个开源的用于LLM代理的双时态记忆引擎,它通过检索一个紧凑的上下文片段(约9.6k token),在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号,比完整历史基线(79k token)高出10.4个准确率点。
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。
EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体
EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。
跨异构任务的自演化LLM记忆抽取
研究者推出BEHEMOTH基准与CluE聚类提示优化,使LLM能从多样化任务中抽取并保留异构记忆,相比既往自演化框架提升9%。