@rohanpaul_ai: 伊利诺伊大学和清华大学等实验室的新研究发现,LLM代理的记忆仍然不可靠,并且可能…

X AI KOLs Following 论文

摘要

伊利诺伊大学和清华大学的一项研究发现,当不断重写LLM代理的记忆时,其记忆变得不可靠,在ARC-AGI任务上性能从100%下降到54%。该论文提出应保留原始经历,而不是总是进行总结。

伊利诺伊大学、清华大学及其他实验室的新研究发现,LLM代理的记忆仍然不可靠,并且当它们不断重写自己的记忆时,情况可能会变得更糟。 LLM代理可以从经验中学习,但它们重写后的记忆往往变得不可靠。 问题在于,许多代理系统通过让LLM将混乱的经验压缩成整洁的书面经验教训来存储过去的工作。 这听起来很有用,因为代理应该记住之前有效的方法,但论文发现,反复重写会逐渐损害记忆。 核心思想是,原始经历(即实际的过去尝试和解决方案)往往比从中提炼出的经验教训更有用。 作者在网页购物、模拟世界、应用使用以及ARC类型的谜题问题等多种任务中进行了测试,在这些任务中他们可以控制正确的解决方案。 最显著的结果是,GPT-5.4在没有记忆的情况下解决了100%的小型ARC-AGI任务集,但在基于正确解决方案构建记忆后,流式更新将其性能降至约54%。 失败的原因包括不良分组、过于宽泛的经验教训以及过拟合,导致记忆忘记了细节、混淆了任务类型,或者学到的规则仅适用于狭窄的例子。 关键在于,代理记忆不应自动将每次经历重写为总结,因为保留原始证据并偶尔进行总结效果更好。 该论文实际上提出,代理记忆应将过去的原始经历视为重要证据,而不是需要总结掉的一次性笔记。 ---- 论文链接 – arxiv.org/abs/2605.12978 论文标题:"Useful Memories Become Faulty When Continuously Updated by LLMs"
查看原文
查看缓存全文

缓存时间: 2026/05/19 02:41

伊利诺伊大学+清华大学等实验室的新研究发现,LLM智能体的记忆仍然不可靠,而且当它们不断重写自己的记忆时,情况可能会变得更糟。

LLM智能体可以从经验中学习,但它们重写后的记忆常常变得不可靠。

问题在于,许多智能体系统通过要求LLM将杂乱的经验压缩成整洁的文字经验总结来存储过去的工作。

这听起来很有用,因为智能体应该记住之前有效的方法,但该论文发现,反复重写会逐渐损害记忆。

核心思想是:原始的事件记录——即过去的实际尝试和解决方案——通常比基于它们打磨出的经验总结更有用。

作者在网页购物、模拟世界、应用使用以及ARC风格的谜题问题等任务上测试了这一观点,在这些任务中他们可以控制正确的解决方案。

最显著的结果是:GPT-5.4在无记忆的情况下解决了100%的小型ARC-AGI数据集,但在基于正确解决方案构建记忆后,流式更新将完成率降至约54%。

失败的原因来自错误分组、过度泛化的经验总结以及过拟合——记忆会遗忘细节、混淆任务类型,或者只适用于狭隘例子的规则。

关键结论是:智能体记忆不应自动将每次经历重写成总结,因为保留原始证据、仅偶尔进行总结效果更好。

该论文实质上提出,智能体记忆应将原始的过去事件视为重要证据,而不是可以轻易总结掉的随手笔记。


论文链接 – arxiv. org/abs/2605.12978

论文标题:“Useful Memories Become Faulty When Continuously Updated by LLMs”

相似文章

STALE:LLM智能体能否识别记忆何时失效?

Hugging Face Daily Papers

本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。

LLM持续更新时,有用记忆会变得不可靠

Hugging Face Daily Papers

一项研究发现,在基于LLM的智能体系统中持续更新整合记忆会降低性能,而保留原始情节轨迹更为可靠。在ARC-AGI上的实验显示,即使GPT-5.4在整合后也更容易失败。