@rohanpaul_ai: 伊利诺伊大学和清华大学等实验室的新研究发现,LLM代理的记忆仍然不可靠,并且可能…
摘要
伊利诺伊大学和清华大学的一项研究发现,当不断重写LLM代理的记忆时,其记忆变得不可靠,在ARC-AGI任务上性能从100%下降到54%。该论文提出应保留原始经历,而不是总是进行总结。
查看缓存全文
缓存时间: 2026/05/19 02:41
伊利诺伊大学+清华大学等实验室的新研究发现,LLM智能体的记忆仍然不可靠,而且当它们不断重写自己的记忆时,情况可能会变得更糟。
LLM智能体可以从经验中学习,但它们重写后的记忆常常变得不可靠。
问题在于,许多智能体系统通过要求LLM将杂乱的经验压缩成整洁的文字经验总结来存储过去的工作。
这听起来很有用,因为智能体应该记住之前有效的方法,但该论文发现,反复重写会逐渐损害记忆。
核心思想是:原始的事件记录——即过去的实际尝试和解决方案——通常比基于它们打磨出的经验总结更有用。
作者在网页购物、模拟世界、应用使用以及ARC风格的谜题问题等任务上测试了这一观点,在这些任务中他们可以控制正确的解决方案。
最显著的结果是:GPT-5.4在无记忆的情况下解决了100%的小型ARC-AGI数据集,但在基于正确解决方案构建记忆后,流式更新将完成率降至约54%。
失败的原因来自错误分组、过度泛化的经验总结以及过拟合——记忆会遗忘细节、混淆任务类型,或者只适用于狭隘例子的规则。
关键结论是:智能体记忆不应自动将每次经历重写成总结,因为保留原始证据、仅偶尔进行总结效果更好。
该论文实质上提出,智能体记忆应将原始的过去事件视为重要证据,而不是可以轻易总结掉的随手笔记。
论文链接 – arxiv. org/abs/2605.12978
论文标题:“Useful Memories Become Faulty When Continuously Updated by LLMs”
相似文章
STALE:LLM智能体能否识别记忆何时失效?
本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。
@dylan_works_: 写了一些我最近一直在研究的有趣发现:当 LLM agent 反复将自身经历改写成文本形式的“经验……
这篇研究博客文章表明,反复将 LLM agent 的经历改写成文本形式的“教训”往往会降低性能,而非提升性能。作者发现,在 ARC-AGI 和 ALFWorld 等基准测试中,情景记忆保留的效果优于抽象巩固。
当被 LLM 持续更新时,有用的记忆会变得有缺陷(30 分钟阅读)
这项研究表明,即使基于真实解进行训练,通过蒸馏和巩固循环持续更新 LLM 智能体记忆也会导致性能倒退。研究发现,仅保留情景记忆优于基于文本的巩固,突显了当前自我改进范式的重大缺陷。
LLM持续更新时,有用记忆会变得不可靠
一项研究发现,在基于LLM的智能体系统中持续更新整合记忆会降低性能,而保留原始情节轨迹更为可靠。在ARC-AGI上的实验显示,即使GPT-5.4在整合后也更容易失败。
@hyunji_amy_lee: LLM代理与记忆系统在持续更新的环境中运行(Git仓库、不断演变的文档)。它们必须处理…
MINTEval是一个新的基准,用于评估在频繁上下文变化的持续更新环境中LLM代理和记忆系统的表现。它显示当前系统性能不佳,典型系统的平均准确率仅为27.9%。