LLM持续更新时,有用记忆会变得不可靠
摘要
一项研究发现,在基于LLM的智能体系统中持续更新整合记忆会降低性能,而保留原始情节轨迹更为可靠。在ARC-AGI上的实验显示,即使GPT-5.4在整合后也更容易失败。
查看缓存全文
缓存时间: 2026/05/14 04:17
论文页面 - 被LLM持续更新后,有用的记忆会变得不可靠
来源:https://huggingface.co/papers/2605.12978
发表于 5月13日
·
提交者:https://huggingface.co/shizhuo2
Dylan (https://huggingface.co/shizhuo2) 于 5月13日
摘要
近期依赖LLM整合记忆的智能体记忆系统未能提升性能,反而因错误的整合而性能下降,而保留原始情景轨迹则能保持更高的准确性。
从过往经验中学习得益于两种互补的记忆形式:情景痕迹(https://huggingface.co/papers?q=episodic%20traces)—— 事件发生的原始轨迹 —— 以及整合抽象(https://huggingface.co/papers?q=consolidated%20abstractions) —— 从多个事件中提炼出的可复用的图式化经验。近期智能体记忆系统(https://huggingface.co/papers?q=agentic-memory%20systems)追求的就是后者:让LLM将过去的轨迹重写成一个文本记忆库,并随着新交互不断更新,从而在不更新参数的情况下实现自我改进的智能体。然而我们发现,即便从有益经验中产生,当前LLM(https://huggingface.co/papers?q=LLMs)所生成的整合记忆也常常有误。随着整合的推进,记忆效用先升后降,甚至可能低于无记忆的基线。更令人惊讶的是,即便从真实解中进行整合,GPT-5.4 也在54%的ARC-AGI(https://huggingface.co/papers?q=ARC-AGI)问题上失败,而这些问题它之前在没有记忆的情况下是可以解决的。我们将这种退化归因于整合步骤而非底层经验:相同的轨迹在不同的更新策略下会产生性质不同的记忆,而仅仅保留这些轨迹的情景对照实验,其表现与我们所测试的整合器相当。在受控的ARC-AGI(https://huggingface.co/papers?q=ARC-AGI)Stream环境中,智能体可以执行保留、删除和整合操作,默认情况下它们会保留原始事件,其准确率是强制整合型智能体的两倍;完全禁用整合(仅情景管理(https://huggingface.co/papers?q=episodic%20management))也能达到自动模式的效果。实践中,鲁棒的智能体记忆应该把原始事件视为一等证据,并明确地控制整合,而不是每次交互后都自动触发。展望未来,可靠的智能体记忆需要LLM(https://huggingface.co/papers?q=LLMs)能在不覆盖它们所依赖的证据的前提下进行整合。
查看 arXiv 页面(https://arxiv.org/abs/2605.12978)
查看 PDF(https://arxiv.org/pdf/2605.12978)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12978)
引用该论文的模型
0
没有模型链接该论文
请在模型的 README.md 中引用 arxiv.org/abs/2605.12978,以在此页面建立链接。
引用该论文的数据集
0
没有数据集链接该论文
请在数据集的 README.md 中引用 arxiv.org/abs/2605.12978,以在此页面建立链接。
引用该论文的 Spaces
0
没有 Space 链接该论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.12978,以在此页面建立链接。
包含该论文的收藏集
0
没有收藏集包含该论文
请将该论文添加到一个收藏集(https://huggingface.co/new-collection)中,以在此页面建立链接。
相似文章
LLM持续更新下有用记忆变得不可靠
本文表明,使用LLM将过去的经验持续整合到文本记忆中会随着时间的推移降低记忆效用,并且保留原始情景轨迹优于强制整合,这对构建鲁棒的智能体记忆系统具有启示意义。
当被 LLM 持续更新时,有用的记忆会变得有缺陷(30 分钟阅读)
这项研究表明,即使基于真实解进行训练,通过蒸馏和巩固循环持续更新 LLM 智能体记忆也会导致性能倒退。研究发现,仅保留情景记忆优于基于文本的巩固,突显了当前自我改进范式的重大缺陷。
@dylan_works_: 写了一些我最近一直在研究的有趣发现:当 LLM agent 反复将自身经历改写成文本形式的“经验……
这篇研究博客文章表明,反复将 LLM agent 的经历改写成文本形式的“教训”往往会降低性能,而非提升性能。作者发现,在 ARC-AGI 和 ALFWorld 等基准测试中,情景记忆保留的效果优于抽象巩固。
@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…
本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。
当存储证据不再可用时:Agent 记忆的条件规模评估
本文提出了一种针对 Agent 记忆的条件规模评估协议,分析随着无关会话的累积,可靠性如何下降。该研究识别了不同记忆接口和大型语言模型(LLM)下的特定失效区域和可用规模边界。