回收评估:有损记忆比空记忆更糟糕
摘要
本文表明,具有有损记忆的语言模型如果保留了错误结论而丢弃了证据,会产生自信的错误答案,而空记忆则会导致弃权。作者提出了一种源优先压缩策略,保留可重新计算的来源而非结论,以保持可纠正性,并在多个模型和对话系统中展示了这一机制。
arXiv:2606.25449v1 公告类型:新
语言模型的记忆可能比完全没有记忆更糟糕。给模型一个保留了错误结论但丢弃了背后工作的记忆,它会自信地输出那个过时的值作为答案;给同一个模型一个空记忆,它会弃权。在七个模型中,这个方向从未逆转,这是一个无人能打破的干净终止条件。我们称这种记忆为脆弱记忆:行为层面的,而非其下近乎直接的信息界限;只有其幅度取决于倾向和任务,而非方向。我们通过回收评估来衡量它:在固定预算下压缩一个偏离的交互,然后测试修正是否恢复已知答案,根据真实值无评判地评分。可纠正性的瓶颈在于决定答案的来源是否存活,而非能力。一个单行源优先策略(保留可重新计算的来源,丢弃可重推导的结论)在相同预算下恢复了可纠正性,前提是该来源紧凑且可识别;一个长度匹配的控制排除了添加文本的原因。手工构建的预言机达到1.00;一个单提示可部署版本回收了0.49-0.88。风险会累积:通过记忆循环链接,单个源头丢失的错误会污染不断增长的下游步骤,且无法纠正,而源优先则保持在有限的预算范围内。这个障碍和修复在三个部署的记忆系统和真实对话(MultiWOZ)中复现,当预算超出源不再适合时,修复会静默失败,除非笔记记录了完整性。这是一个对机制的受控研究,而非基准:无评判的精确评分、匹配预算控制和旨在返回错误的验证器。我们发布了框架、条件和验证器。
查看缓存全文
缓存时间: 2026/06/25 05:11
# 回取评估:有损记忆比空记忆更糟 来源:https://arxiv.org/html/2606.25449 ###### 摘要 语言模型的记忆可能比完全没有记忆更糟。给模型一个保留了错误结论却丢弃了其背后工作过程的记忆,它会自信地输出那个已过时的错误值;而给同一个模型一个*空*记忆,它则会放弃作答。在我们测试的七个模型中,这一方向从未逆转(在每一个模型中,有损记忆都会自信地输出错误值,而空记忆则放弃作答),因此这一主张带有一个清晰的终结条件:任何一个会作答的模型,当它面对一个带有错误值的记忆时却能放弃作答,这就能推翻该主张,但没有任何模型这样做。我们将此失败称为**脆弱记忆**。它是行为层面的,而非其底层的信息界限(从定义上可直接得出),并且与之可分:只有*程度*是倾向性和任务相关的(一种版本依赖的风险,而非普遍规律);而方向则不是。 语言模型通过将信息压缩成记忆来跨轮次传递信息,其前提假设是:保留答案就保留了重要的东西;我们表明,同样的压缩也决定了模型是否能够被*纠正*。我们通过**回取评估**来测量这一点:在固定预算下压缩一个已偏移的交互,然后测试一次纠正确是否能恢复已知答案,并根据真实结果(零评判者)进行评分。可纠正性的瓶颈在于决定答案的源信息是否存活,而非能力。一行**源优先**策略(保留可重新计算的源信息,丢弃可重新推导的结论)在预算相等的情况下恢复了可纠正性,只要该源信息是紧凑且可识别的;一个长度匹配的对照组排除了添加文本作为原因的可能。手工构建的策略是一个预言机;其单提示可部署版本恢复了 \(0.49\)–\(0.88\),低于预言机的 \(1.00\),并且集中在紧凑的数值源上。部署的利害关系并非单一的错误答案,而是复合性的错误:通过已部署智能体运行的记忆循环链,一个丢弃源信息的错误会污染不断增长的下游步骤,并且无论多晚被发现都无法纠正,而源优先策略则将预算范围限制在一个有界的范围内。这一困境及其修复方案在三个已部署的记忆系统以及真实对话(MultiWOZ)中得以复现;当预算超出源信息可容纳的范围时,该修复方案会默默失败,除非笔记记录了自身的完整性。这是一项关于机制的受控研究,而非基准测试:零评判者的精确评分、匹配预算的对照、以及构建为必然失败的验证器,其头条单元格的样本量为 \(n=96\)。我们发布了工具包、配对的记忆条件以及这些验证器。¹¹ > 代码、数据及复现工具包:https://github.com/collapseindex/reclaim-eval。 参考图1:压缩决定了错误是否仍可修复。模型在第1轮中发生偏移;只有压缩后的记忆以固定预算进入第2轮。在**有损**压缩下,记忆保留了显著的*错误*结论并丢弃了源信息,因此后续的纠正没有可重新计算的基础,模型不会放弃作答,而是自信地返回过时的错误值。在**源优先**压缩下,记忆保留了可重新计算的源信息并丢弃了可重新推导的结论,因此同样的纠正得以生效,模型恢复了真相。相同预算,相反结果;唯一的区别是保留了什么。数值为低记忆完整性下的定向臂恢复率;相同的保留源/丢弃源模式出现在两个模型和两个任务族中(表5, 表6)。所示的**源优先**记忆是手工构建的预言机;一个单提示可部署蒸馏器恢复了 \(0.49\)–\(0.88\),而非 \(1.00\),这是需要实际部署的数字(§5)。端到端流水线在 llama-3.1-8b 和 grok-4.3 上运行完整流程,并在 claude-sonnet-4-6 上进行了前沿模型的写入和读取确认(§5);其他前沿模型数字是基于固定记忆的作答模型重放。 表1:主张与证据。每一个承重的主张、其背后的证据及其认知状态:**已展示**(直接论文内测量)、**分析性**(由定义得出)、或**提示性**(初步的,非承重)。我们首先呈现行为结果(已展示);信息界限(分析性)是方法工具,而非结果。 ## 1 引言 语言模型越来越多地部署在需要记忆的场景中。助手的“记忆”功能、长期运行的智能体以及检索流水线都通过*压缩*将信息跨越上下文窗口或会话边界向前传递:一个对话、一份文档或一条轨迹被简化为摘要、笔记或一组检索块 (Packer et al., 2023; Lewis et al., 2020)。这些系统背后的隐含假设是:保留模型答案的压缩就保留了重要的东西。我们表明这一假设在某种重要意义上是不完整的。压缩不仅决定了模型能回忆起什么,还决定了模型之后是否能够被*纠正*。当模型已经承诺了某个错误的中期结论,并且该结论被向前传递而支持它的证据被丢弃时,后续的纠正就没有可作用的对象:模型会重申该错误,而我们测试的任何更强的模型都无法从中恢复。我们将此失败称为**脆弱记忆**,类比于一个看似完整的记忆(显著的答案还在),但在被要求支持纠正的瞬间就破碎了。而且,由于已部署的智能体将记忆喂入记忆,损害并非局部的:单个丢弃源信息的错误会在链上复合,污染不断增长的下游步骤,并且无论纠正何时到来都无法抵抗,而保留源的记忆在有限预算范围内保持可纠正性(§5.9)。因此,与部署相关的利害关系不是单个错误答案,而是一个复合的、无法纠正的错误。这并非假设。摘要中占主导的本能是保留*结论*而丢弃*工作过程*。一条记录“总数为55美元”而丢弃明细项的笔记,保留了错误答案并摧毁了纠正它的唯一手段。我们将其精确化、测量它,并表明这是一个设计选择,而非模型的固有属性。信息损失从定义上即可得出:没有输入就无法重新计算一个值,任何能力都不能改变这一点。这是*设定*;它并未说明模型接下来会做什么。*发现*是行为层面的,并非固定特质:同一个模型会根据记忆保留了什么而放弃作答或自信地输出错误值。一个缺少源信息的模型并非可靠地放弃作答(§5),而对于一个会作答的模型,保留了错误结论的记忆比什么都不保留的*更糟*,因为过时的错误值充当了一个吸引子,即使模型在摇摆不定时也会输出它。因此,校准是由记忆设计所诱发的,并非一次测量即可固定的属性,而部署的危险并非源信息消失,而是模型表现得好像它还在一样。我们不提议普遍性的源信息保留;我们识别了记忆必须保留重新计算路径的区间,并表明当前类似摘要的记忆往往在此处丢弃源信息。真实助手记忆中有多大比例居住在这个区间(紧凑可核查的源信息与无单独源信息的分散证据),这是界定后续内容实际适用范围的开放问题(§7)。 为了直接研究可纠正性,我们引入了**回取评估**(§3)。我们在一个已知答案的任务上诱发偏移,在几轮交互中加深模型的承诺,将交互压缩成一条在固定预算下携带的记忆,然后提供一个*定向*纠正(指出错误位置但不给出答案)。测量的量是回取率:纠正恢复真相的频率。通过保持预算固定,仅改变压缩保留了*什么*,我们将可纠正性与模型能力以及记忆预算进行了隔离。每一条承重的主张、其证据及其认知状态(已展示、分析性或提示性)都在表1中进行了映射。 #### 贡献 - • **回取评估**:一种配对记忆协议,通过仅在保留内容上有所差异的匹配预算策略来压缩已承诺的交互,从而将可纠正性与能力以及记忆预算隔离开来(§3)。 - • **有损记忆比空记忆更糟**。直觉认为任何记忆都比没有好;但事实相反。当源信息消失后,一个*倾向于作答*的模型不会放弃回答,而是输出过时的错误值,因此保留错误结论(脆弱记忆区间)比什么都不保留更糟,这是一种锚定效应或讨好行为都无法预测的不对称性,且能力也无法修复(一个88B模型和一个前沿模型在同一位置碰壁)。我们将其报告为一种版本依赖的风险(方向在七个模型上均稳健,程度由倾向性决定),对于外部植入的错误最为明显(§5)。 - • **错误会级联,而这正是部署的利害关系**:当记忆喂入记忆时,单个有损错误会污染一个随链条增长而扩大的波及范围,且始终无法纠正(一个无错误控制不会注入任何问题),而源优先策略则保持在一个能力不变的有界预算范围内,因此单跳的困境并非一次性错误答案,而是一个复合的、无法纠正的错误(§5.9)。 - • **源优先补救及其适用区间**:一行策略,在相同预算下消除了失败,前提是*决定答案的源信息紧凑且可识别*;一个长度匹配的对照排除了“只是因为它有更多文本”的可能性;其单提示可部署形式比预言机弱得多(\(0.49\)–\(0.88\),而非 \(1.00\))(§5)。 - • **两个任务族与一条条件规律**:该补救在算术和约束逻辑上都成立,而困境的严重程度由任务决定:当源信息不可恢复时为零,当有线索幸存时为部分下限(§5)。 - • **规律的边界,以及一种静默失败模式**:两次扫描定位了源优先在能力不变的情况下会衰退到有损基线的位置,当决定答案的源信息超出预算(大小)或被干扰项挤占(噪声)时。超出此边界后它会*静默*失败;一行完整性信号恢复了响亮的失败,但这本身也受能力门控(§5)。 - • **已部署系统及前沿模型在同一轴线上**:三种现成的记忆系统都远低于源优先,每种都以不同方式丢失了源信息,将作答模型重放到 claude-opus-4-8 使丢弃源信息的案例保持 \(0.00\),而源优先达到 \(1.00\)。前沿记忆*写入器*挽救了摘要但未能挽救提取存储(后者*更严重地*产生幻觉),因此读写两侧的能力都不是范式独立的修复方案(§5)。 - • **在真实对话记忆上的复现**:在 MultiWOZ (Budzianowski et al., 2018) 上,困境和源优先修复均成立,客观评分且无评判者,因此紧凑确定性任务并非特例;它强调了*读取*步骤,但将*定位*步骤(§7)视为开放问题(§5)。 ## 2 相关工作 #### 记忆、检索与长上下文。 助手和智能体记忆系统将历史压缩为向前携带的笔记或可检索的块 (Packer et al., 2023; Lewis et al., 2020),而长上下文本身也存在不均匀的关注,中间部分的材料被使用得最少 (Liu et al., 2024)。这些系统朝显著的结论进行压缩。我们的结果正是针对这个默认做法的警告:保留结论并丢弃源信息的摘要,保留了错误并摧毁了修复它的手段。 #### 自我纠正与反馈。 有一系列工作要求模型修改自身的输出 (Madaan et al., 2023; Shinn et al., 2023),而一个冷静的发现是,模型往往无法在没有外部信号的情况下可靠地进行推理自我纠正 (Huang et al., 2024)。我们的定向纠正正是这样一个最小的外部信号,指出错误位置但不给出修复。我们表明,一旦可重新计算的源信息离开上下文,即使是完美外部信号也无能为力:此时瓶颈是信息,而非反馈。我们的困境并非对锚定效应加上自我纠正限制的重新标签 (Huang et al., 2024):一个压缩*策略*决定了哪个区间成立(源信息幸存时锚定,丢弃后不可纠正的信息损失),且预算匹配,而一个错误值的记忆比空记忆*更糟*,这是一种这两个组成部分都无法预测的行为不对称性。 #### 多轮偏移。 模型可以经过多轮被引导至一个单次提问不会采用的状态,这构成了多轮越狱的基础 (Russinovich et al., 2025),而跟随自信对话者而非证据的倾向被记录为讨好行为 (Sharma et al., 2024)。我们使用一个良性的、可核查的类比——植入的算术或逻辑前提——并研究回程:一个已承诺的模型何时能够被带回。我们的失败与两者都不同。它不是讨好行为:模型并非跟随一个和蔼可亲的对话者,而是根据它记忆保留的内容进行重新计算,当可重新计算的源信息消失时失败,而非在人类推动下失败。它也不是固定的校准属性:同一个模型根据压缩保留了什么而放弃作答或正确作答,因此失败是由一种记忆策略产生,并由另一种策略移除,而非模型的固有特质。 #### 知识编辑。 在模型权重中编辑一个事实是对信念进行纠正的参数化对应物 (Meng et al., 2022);我们的工作则是在上下文中、每次交互时的对应物,并且它隔离了权重编辑所绕开的一个前提条件,即证明新值合理的证据仍必须在场。 #### 表面检查中隐藏的脆弱性。 一种失败可能对表面文本的检查不可见,但在上下文恢复后却具有决定性。Choi & Kwon (2026) 针对*安全性*展示了这一点:对齐模型在内容层面通过了护栏检查,而同样的行为在上下文中却不安全,因此危险对上下文感知的评估者来说是清晰可读的,但对文本本身则不然。我们发现对于*可纠正性*存在同样的表面/结构差距:一个携带的答案看起来完整,但它能否被修复完全取决于压缩保留了何种结构。在两者中,重要的属性(安全性或可纠正性)存在于上下文或保留的源信息中,而非内容检查所能读取的表面。 ## 3 脆弱记忆与回取评估
相似文章
有限记忆语言模型中的遗忘审计
本文提出了一种因果审计框架,通过在推理过程中改变数据库状态来评估有限记忆语言模型中的遗忘情况,发现参数泄漏可忽略不计,删除后的正确性主要源于检索伪影而非残留的参数记忆。
已删除,但未消失:输出遗忘并非真正遗忘
本文认为,标准的输出层机器遗忘评估高估了成功程度,表明方法可以在输出层看似成功,同时保留与重新训练模型相关的结构性表征层差异。作者提出与重新训练一致的表征遗忘作为更强的评估视角。
STALE:LLM智能体能否识别记忆何时失效?
本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。
记忆深度,而非记忆访问:面向长时间运行语言代理的选择性参数整合
本文针对长时间运行的语言代理引入了记忆深度的概念,将其与基于检索的记忆访问区分开来,并提出了EVAF——一种利用惊喜和效价门控LoRA更新的选择性参数整合机制。跨多个模型的实验表明,EVAF在上下文卸载后以极少的参数写入提高了目标持久性。
当被 LLM 持续更新时,有用的记忆会变得有缺陷(30 分钟阅读)
这项研究表明,即使基于真实解进行训练,通过蒸馏和巩固循环持续更新 LLM 智能体记忆也会导致性能倒退。研究发现,仅保留情景记忆优于基于文本的巩固,突显了当前自我改进范式的重大缺陷。