记忆深度,而非记忆访问:面向长时间运行语言代理的选择性参数整合

arXiv cs.AI 论文

摘要

本文针对长时间运行的语言代理引入了记忆深度的概念,将其与基于检索的记忆访问区分开来,并提出了EVAF——一种利用惊喜和效价门控LoRA更新的选择性参数整合机制。跨多个模型的实验表明,EVAF在上下文卸载后以极少的参数写入提高了目标持久性。

arXiv:2606.26806v1 公告类型:新 摘要:长时间运行的语言代理不仅需要记忆访问。检索系统可以在查询时获取过去的事实,但它们不会决定在卸载工作上下文后哪些经验应继续塑造行为。我们将这个独立的问题作为记忆深度来研究:将持久的目标条件倾向写入一个小型参数存储中。我们引入了循环漂移协议,一个受控的压力测试,其中检索索引保持完整,而工作上下文被卸载,并且目标条件行为必须在长循环干扰下持续。我们评估了EVAF,一种惊喜和效价门控的LoRA整合机制。在GPT-2和TinyLlama上,检索在浅层事实回忆方面最强(短事实准确率0.956--0.973),而EVAF在目标持久性和卸载后恢复方面最强(0.812--0.904),且每200个事件仅进行2-3次参数写入。机制控制表明,选择性整合可分解为两个可控维度:选择与驱动。匹配的随机门将选择与稀疏写入隔离;在GPT-2、TinyLlama和Mistral-7B上的固定内部循环控制表明,内部循环写入强度与模型相关;而Mistral-7B的匹配门反转揭示了在错误校准驱动下的不对称选择-驱动耦合。公共Memora事件流作为外部诊断,暴露了陈旧记忆失效这一未解决的边界。在此探测中,选择性参数整合提供了与检索访问不同且互补的记忆深度。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:17

# 记忆深度,而非记忆访问:面向长周期语言代理的选择性参数巩固
来源: https://arxiv.org/html/2606.26806

###### 摘要

长周期语言代理需要的不仅仅是记忆访问。检索系统可以在查询时获取过去的事实,但它们无法决定哪些经验应在工作上下文卸载后继续影响行为。我们将这个独立问题研究为**记忆深度**:写入小型参数存储中的持久目标条件化倾向。我们引入了循环漂移协议(loop-drift protocol),这是一个受控的压测场景,其中检索索引保持完整,而工作上下文被卸载,目标条件化行为必须在长循环干扰下持续存在。我们评估了EVAF,一种基于惊喜度和效价的LoRA巩固机制。在GPT-2和TinyLlama上,检索在浅层事实回忆方面最强(短事实准确率0.956–0.973),而EVAF在目标持久性和卸载后恢复方面最强(0.812–0.904),且每200个事件仅需2–3次参数写入。机制对照表明,选择性巩固可分解为两个可控维度:选择和实施。匹配的随机门控在稀疏写入之外隔离了选择;跨GPT-2、TinyLlama和Mistral-7B的固定内部循环对照表明,内循环写入强度是模型相关的;Mistral-7B匹配门控反转揭示了在校准不良的实施下,选择与实施之间的非对称耦合。公共Memora事件流作为外部诊断工具,暴露了陈旧记忆失效作为一个未解决的边界问题。在此探测中,选择性参数巩固提供了与检索访问不同且互补的记忆深度。

## 1 引言

长周期语言代理积累的历史很快会超出其工作上下文。主流的工程解决方案是检索:将过去事件存储在模型外部,检索相关子集,并基于检索到的文本进行条件生成 (Lewis et al. 2020 (https://arxiv.org/html/2606.26806#bib.bib20); Packer et al. 2023 (https://arxiv.org/html/2606.26806#bib.bib23); Gutiérrez et al. 2024 (https://arxiv.org/html/2606.26806#bib.bib24))。检索不可或缺,但它回答的是一个特定问题:*可以获取什么?*它没有回答一个互补的问题:*即使上下文中没有相关文本,什么应该继续塑造代理的行为?*

我们把第二种特性称为**记忆深度**。浅层记忆只有在系统检索或关注到时才可用。深层记忆则会改变未来行为:它能在干扰中持续存在,在上下文卸载后存活,并在无需重新以文本形式插入的情况下影响选择。这种区别与互补学习系统的动机类似,其中快速的情景存储和慢速的巩固存储扮演不同角色 (McClelland et al. 1995 (https://arxiv.org/html/2606.26806#bib.bib1); Kumaran et al. 2016 (https://arxiv.org/html/2606.26806#bib.bib2))。对于语言代理,这种区别很容易被模糊化。如果一个基准测试询问一个旧事实,检索应该获胜。但一个长期运行的助手也需要持久的意图、偏好和约束,这些不仅仅是可获取的事实。

因此,我们在受控的循环漂移协议下研究选择性参数巩固。每个合成用户流包含稳定的目标事件、偏离主题的干扰项、短暂的相反请求、冲突、兄弟用户污染以及明确的事实记录。我们探测多个记忆层:近期事实、旧有噪声事实、目标持久性以及卸载后的目标恢复。关键设计在于检索记忆是持久的。上下文卸载会清空工作上下文,但不会清空检索索引。因此,EVAF 在目标层上的优势并非简单的“RAG 遗忘”伪影。

我们的机制 EVAF 使用一个惊喜度乘以效价的门控,仅允许与行为相关的事件进入一个小缓冲区。当缓冲区满时,通过回放和 L2 锚点更新低秩适配器。这并非旨在替代检索:它针对的是更慢的问题,即哪些事件应留下持久的印记。

本文做出五项贡献:

1.  我们形式化了长周期语言代理中记忆访问与记忆深度的分离,并在受控的循环漂移协议中实例化。
2.  我们在 GPT-2 和 TinyLlama 上展示了深度翻转:RAG 在浅层事实方面获胜,而 EVAF 在目标持久性和卸载后恢复方面获胜,且写入次数远少于朴素的持续 LoRA。
3.  我们表明选择不仅是稀疏性:具有相同写入次数的匹配随机门控在 GPT-2 上输给 EVAF,而 Mistral-7B 则揭示了校准不良的实施如何能反转相同的比较。
4.  我们将选择与实施分离。跨 GPT-2、TinyLlama 和 Mistral-7B 的固定内部循环对照表明,写入强度是一个独立的、模型相关的因素,并且过度实施会降低持久性和选择性。
5.  我们使用公共 Memora 事件流作为外部诊断工具。结果有意保持克制:EVAF 在陈旧记忆拒绝方面方向积极但不显著,这暴露了删除/更新有效性作为未来工作。

## 2 记忆访问 vs. 记忆深度

我们将一个长周期记忆流定义为一个事件序列 \(x_1, \ldots, x_T\)。在评估时,方法可能可以访问外部存储、参数适配器或两者兼有。我们区分四个探测层。

**浅层情景访问** 询问一个近期显式事实。这是检索的自然强项。**噪声情景访问** 询问一个经过同键干扰后的较旧事实。检索仍应具有竞争力。**参数倾向** 询问一个稳定目标在经过长时间干扰后是否继续塑造行为。**卸载后恢复** 在上下文立即卸载后重复目标探测,此时检索记忆仍然完整但工作上下文已清空。

目标不是通用记忆准确性。目标是一个更具体的权衡:

\[
\max \;\mathrm{GoalPersist} + \mathrm{PostUnload}
\]
约束条件:低写入次数和有界的适配器漂移。

短期事实访问预期由检索主导。参数巩固的贡献在于目标条件化层,该层在卸载下仍然活跃。

## 3 方法

### 3.1 EVAF 选择门控

EVAF 维护一个小型写入缓冲区。对于每个事件 \(x_t\),模型从标记负对数似然计算一个惊喜度分数 \(s_t\),并从与用户持久的意图和偏好的嵌入相似度计算一个效价分数 \(v_t\)。写入接纳分数为

\[
g_t = \sigma(k_s (s_t - \tau_s)) \cdot \sigma(k_v (v_t - \tau_v)).
\]
如果 \(g_t > \tau_w\),则事件进入缓冲区。当缓冲区达到固定大小时,适配器在缓冲区加上来自先前巩固事件的重放上进行更新。适配器是一个 LoRA 模块 (Hu et al. 2022 (https://arxiv.org/html/2606.26806#bib.bib13));重放和 L2 锚点作为漂移防护,遵循持续学习中重放和弹性约束的广泛直觉 (Rolnick et al. 2019 (https://arxiv.org/html/2606.26806#bib.bib9); Kirkpatrick et al. 2017 (https://arxiv.org/html/2606.26806#bib.bib7))。我们使用每个用户的中位数预热来确定惊喜度阈值,固定门控斜率 (\(k_s = 1, k_v = 10\)),\(\tau_v = 0.5\) 和 \(\tau_w = 0.5\),跨随机种子;完整常数列在补充材料中。

### 3.2 实施控制器

最初的 EVAF 实现将选择与固定的内循环写入强度耦合。我们后续的对照表明这还不够:相同的选定缓冲区可能有益或有害,取决于写入的强度。因此,我们将实施与事件选择分开评估。

**固定内循环控制器** 是主要诊断工具:它们使用相同的 EVAF 选择门控,但仅改变内部 LoRA 步骤数量。我们报告固定-1、固定-2 和固定-3。

**行为边际控制器** 是作为一个工程概念验证包含的,而非作为首要的机制声明。它机械地从训练事件本身提取保持的校准对,绝不来源于评估链,并写入直到事件衍生的目标/偏好边际移动目标量,受 KL 和 L2 上限约束。我们报告它是因为它提供了一个行为层面的实施控制器,补充了固定内循环诊断,但其结果并非关键证据:Mistral 跨随机种子的方差远大于固定内循环控制器,并且我们不将其用于任何 7B 修复声明。

**路由 EVAF+RAG** 将事实探测路由到检索,目标探测路由到 EVAF。它测试互补性:检索用于访问,参数巩固用于深度。

### 3.3 机制直觉

对于流损失 \(\ell_t(\theta)\),一个朴素的持续适配器几乎对每个事件都应用更新:

\[
\Delta\theta_{\mathrm{naive}} \propto -\sum_{t=1}^{T} \nabla_\theta \ell_t(\theta).
\]

而 EVAF 则接纳一个稀疏子集 \(A = \{t: g_t > \tau_w\}\),并更新:

\[
\Delta\theta_{\mathrm{evaf}} \propto -\sum_{t \in A} \nabla_\theta \ell_t(\theta) - \lambda (\theta - \theta_0).
\]

当大多数流事件是干扰项时,这应该减少漂移,但单纯的稀疏性并非机制所在:如果接纳的子集是随机的,更新仍可能指向瞬态、兄弟或离主题的梯度。门控只有在其 \(g_t\) 与行为相关事件相关时才有效。匹配门控消融实验正是测试这一条件。

### 3.4 可分离因素,耦合动态

选择和实施是可分离的控制因素,但它们并非独立的在线动态。选择直接驱动实施:门控决定是否写入缓冲区。实施通过间接方式反馈到未来的选择:适配器改变后,后续的惊喜度分数是在新的模型状态下计算的。

这种非对称反馈在 Mistral-7B 固定内循环审计中可见(表 1 (https://arxiv.org/html/2606.26806#S3.T1))。在 Mistral 上,较小的内步骤会触发更多未来写入,这与较弱的实施导致后续相似事件仍然足够惊喜而通过门控是一致的。这一方向在全部四个 Mistral 随机种子中单调。在 GPT-2 和 TinyLlama 上,相同循环的绝对写入次数低得多(平均写入约 2–5 次),压缩范围没有产生同样清晰的单调特征;这种耦合在 7B 上最为明显,其中固定-1 与默认五步控制器之间的差距约为每个用户 6 次写入。

表 1: Mistral-7B 四种子固定内循环审计中的非对称在线反馈。随着内步骤强度降低,写入次数增加,表明实施通过依赖于模型状态的惊喜度改变了未来的选择。

## 4 循环漂移协议

现有的公共长记忆基准主要评估系统是否能检索、更新或推理存储的信息。它们并不直接隔离我们这里需要的卸载后设置:检索索引仍然可用,但相关文本不在工作上下文中,并且相同的参数写入必须继续塑造目标条件化行为。因此,循环漂移是一个受控协议,而非排行榜基准。

每个运行包含 10 个用户,每个用户 200 个事件。事件来自稳定目标/偏好提醒、干扰项、短暂相反请求、冲突、兄弟用户污染以及计划中的事实记录。我们评估 Frozen、Summary、RAG、Naive-LoRA、EVAF 和 Routed EVAF+RAG。GPT-2 和 TinyLlama 的结果取四个随机种子的平均值。RAG 基线将所有事件存储在一个持久的嵌入索引中,并检索余弦相似度最高的前三个事件;上下文卸载不会清空此索引。

该协议有意设计为合成。机制声明需要四个属性,而这些属性在公共记忆基准中很少同时受控:显式干扰、持久的检索记忆、可观察的上下文卸载,以及分离的事实与目标条件化探测。合成控制使我们能够询问一个方法是否改变了卸载后行为,而不是它是否在外部存储中找到了一个事实。

该协议使用匹配的续写评分。短事实、长事实、目标和卸载后探测的值越高越好。污染和瞬态覆写的值越低越好。适配器成本通过写入次数和 LoRA L2 漂移来衡量。一次写入表示一次缓冲区巩固触发,而非一次梯度步;总内部更新等于写入次数乘以控制器的内循环步数。

## 5 主要结果:深度翻转

表 2 (https://arxiv.org/html/2606.26806#S5.T2) 和图 1 (https://arxiv.org/html/2606.26806#S5.F1) 展示了核心结果。预期获胜者随记忆深度而变化。RAG 在近期显式事实方面最强,短事实准确率达到 0.956–0.973。EVAF 在短事实方面接近随机,正如预期:其门控是目标条件化的,会拒绝非主题的事实记录。但在目标层上,EVAF 远强于 RAG。在 TinyLlama 上,EVAF 达到 0.833 的目标持久性和 0.812 的卸载后恢复,而 RAG 分别为 0.396 和 0.394。在 GPT-2 上,EVAF 达到 0.904 和 0.900,而 RAG 分别为 0.398 和 0.394。

参见图注 图 1: 预期获胜者随记忆深度翻转。检索在浅层事实访问上最强,而 EVAF 在目标持久性和卸载后恢复上最强。在每个模型内,柱状图按探测深度分组;虚线分隔了 TinyLlama 和 GPT-2。数值来自循环漂移协议的四种均值。

表 2: 循环漂移协议上的深度分离(四种随机种子,10 个用户,200 个事件)。检索掌握浅层事实访问;选择性参数巩固掌握上下文已卸载的目标层。Naive-LoRA 写入每个事件,成本高昂且无法在目标层上匹配 EVAF。Routed EVAF+RAG 支持互补性。

Routed EVAF+RAG 不是主要机制,但这是一个重要的合理性检查。在 GPT-2 上,它恢复了浅层事实访问,同时略微改善了目标层。在 TinyLlama 上,它牺牲了约六个点的目标/卸载后性能以换取近乎完美的短事实回忆。这支持了分工:检索和 EVAF 解决不同的记忆问题,路由可以以模型依赖的权衡方式组合它们。

## 6 机制对照

下面的机制对照是独立的审计重运行,而非来自深度分离表的额外行。它们使用相同的循环漂移生成器和探测族,但在受控的门控和实施反事实下重新运行流;边际控制器额外使用标记风格的训练仅校准对。因此,实施表应在运行内解读。其“审计-5”行是该审计中原始的五步 EVAF 控制器,而非表 2 (https://arxiv.org/html/2606.26806#S5.T2) 深度分离数字的第二个估计。两次运行使用独立的 RNG 流和单独的探测实例;实施审计还包括边际行使用的标记风格校准。因此,相同的五步控制器在不同表格中可能有不同的绝对分数(例如,TinyLlama EVAF 在表 2 中为 0.833,而在表 3 (https://arxiv.org/html/2606.26806#S6.T3) 中审计-5 为 0.627)。表内比较是关键证据。

### 6.1 写入所有事件是不够的

Naive-LoRA 写入每个事件。它每个流有 200 次写入,且...

相似文章

Auto-Dreamer:语言代理的离线记忆整合学习

arXiv cs.CL

Auto-Dreamer 提出了一种针对语言代理的离线记忆整合学习方法,将快速记忆获取与慢速跨会话整合解耦,以更小的记忆库实现更高性能,并泛化到未见环境。

面向长周期LLM智能体的选择性记忆保留

arXiv cs.AI

本文提出TraceRetain,这是一个用于冻结LLM智能体中绑定外部存储的轻量级框架,表明选择性记忆保留主要在记忆流包含噪声时与缓存启发式方法区分开,从而带来任务成功率和效率的提升。