LLM持续更新时,有用记忆会变得不可靠

Hugging Face Daily Papers 论文

摘要

一项研究发现,在基于LLM的智能体系统中持续更新整合记忆会降低性能,而保留原始情节轨迹更为可靠。在ARC-AGI上的实验显示,即使GPT-5.4在整合后也更容易失败。

从过去经验中学习得益于两种互补的记忆形式:情节轨迹——所发生事情的原始轨迹——以及整合的抽象,这些抽象从多个情节中提炼成可复用的、类似图式的经验教训。最近的智能体记忆系统追求整合形式:LLM将过去的轨迹重写为文本记忆库,并持续用新的互动更新,承诺无需参数更新即可实现自我改进的智能体。然而我们发现,即使从有用经验中推导,当今LLM生成的此类整合记忆也常常有缺陷。随着整合的进行,记忆效用先上升后下降,甚至可能低于无记忆基线。更令人惊讶的是,即使从真实解决方案中整合,GPT-5.4在之前没有记忆就已解决的一组ARC-AGI问题中,有54%失败。我们将回归追溯到整合步骤,而非底层经验:相同的轨迹在不同更新计划下产生性质不同的记忆,而仅保留这些轨迹的纯情节控制与我们测试的整合器相比仍具竞争力。在暴露保留、删除和整合操作的受控ARC-AGI Stream环境中,智能体默认保留原始情节,其准确率是强制整合的两倍;完全禁用整合(仅情节管理)与此自动模式相匹配。实际上,稳健的智能体记忆应将原始情节视为一等证据,并明确控制整合,而不是在每次交互后都触发。展望未来,可靠的智能体记忆将需要能够在不覆盖所依赖证据的情况下进行整合的LLM。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/14 04:17

论文页面 - 被LLM持续更新后,有用的记忆会变得不可靠

来源:https://huggingface.co/papers/2605.12978
发表于 5月13日

·

提交者:https://huggingface.co/shizhuo2

Dylan (https://huggingface.co/shizhuo2) 于 5月13日

摘要

近期依赖LLM整合记忆的智能体记忆系统未能提升性能,反而因错误的整合而性能下降,而保留原始情景轨迹则能保持更高的准确性。

从过往经验中学习得益于两种互补的记忆形式:情景痕迹(https://huggingface.co/papers?q=episodic%20traces)—— 事件发生的原始轨迹 —— 以及整合抽象(https://huggingface.co/papers?q=consolidated%20abstractions) —— 从多个事件中提炼出的可复用的图式化经验。近期智能体记忆系统(https://huggingface.co/papers?q=agentic-memory%20systems)追求的就是后者:让LLM将过去的轨迹重写成一个文本记忆库,并随着新交互不断更新,从而在不更新参数的情况下实现自我改进的智能体。然而我们发现,即便从有益经验中产生,当前LLM(https://huggingface.co/papers?q=LLMs)所生成的整合记忆也常常有误。随着整合的推进,记忆效用先升后降,甚至可能低于无记忆的基线。更令人惊讶的是,即便从真实解中进行整合,GPT-5.4 也在54%的ARC-AGI(https://huggingface.co/papers?q=ARC-AGI)问题上失败,而这些问题它之前在没有记忆的情况下是可以解决的。我们将这种退化归因于整合步骤而非底层经验:相同的轨迹在不同的更新策略下会产生性质不同的记忆,而仅仅保留这些轨迹的情景对照实验,其表现与我们所测试的整合器相当。在受控的ARC-AGI(https://huggingface.co/papers?q=ARC-AGI)Stream环境中,智能体可以执行保留、删除和整合操作,默认情况下它们会保留原始事件,其准确率是强制整合型智能体的两倍;完全禁用整合(仅情景管理(https://huggingface.co/papers?q=episodic%20management))也能达到自动模式的效果。实践中,鲁棒的智能体记忆应该把原始事件视为一等证据,并明确地控制整合,而不是每次交互后都自动触发。展望未来,可靠的智能体记忆需要LLM(https://huggingface.co/papers?q=LLMs)能在不覆盖它们所依赖的证据的前提下进行整合。

查看 arXiv 页面(https://arxiv.org/abs/2605.12978)
查看 PDF(https://arxiv.org/pdf/2605.12978)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12978)

引用该论文的模型

0

没有模型链接该论文

请在模型的 README.md 中引用 arxiv.org/abs/2605.12978,以在此页面建立链接。

引用该论文的数据集

0

没有数据集链接该论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.12978,以在此页面建立链接。

引用该论文的 Spaces

0

没有 Space 链接该论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.12978,以在此页面建立链接。

包含该论文的收藏集

0

没有收藏集包含该论文

请将该论文添加到一个收藏集(https://huggingface.co/new-collection)中,以在此页面建立链接。

相似文章

LLM持续更新下有用记忆变得不可靠

arXiv cs.AI

本文表明,使用LLM将过去的经验持续整合到文本记忆中会随着时间的推移降低记忆效用,并且保留原始情景轨迹优于强制整合,这对构建鲁棒的智能体记忆系统具有启示意义。

@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…

X AI KOLs Following

本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。