@rohanpaul_ai: 伊利诺伊大学和清华大学等实验室的新研究发现，LLM代理的记忆仍然不可靠，并且可能…

X AI KOLs Following 2026/05/17 07:51 论文

摘要

伊利诺伊大学和清华大学的一项研究发现，当不断重写LLM代理的记忆时，其记忆变得不可靠，在ARC-AGI任务上性能从100%下降到54%。该论文提出应保留原始经历，而不是总是进行总结。

伊利诺伊大学、清华大学及其他实验室的新研究发现，LLM代理的记忆仍然不可靠，并且当它们不断重写自己的记忆时，情况可能会变得更糟。 LLM代理可以从经验中学习，但它们重写后的记忆往往变得不可靠。问题在于，许多代理系统通过让LLM将混乱的经验压缩成整洁的书面经验教训来存储过去的工作。这听起来很有用，因为代理应该记住之前有效的方法，但论文发现，反复重写会逐渐损害记忆。核心思想是，原始经历（即实际的过去尝试和解决方案）往往比从中提炼出的经验教训更有用。作者在网页购物、模拟世界、应用使用以及ARC类型的谜题问题等多种任务中进行了测试，在这些任务中他们可以控制正确的解决方案。最显著的结果是，GPT-5.4在没有记忆的情况下解决了100%的小型ARC-AGI任务集，但在基于正确解决方案构建记忆后，流式更新将其性能降至约54%。失败的原因包括不良分组、过于宽泛的经验教训以及过拟合，导致记忆忘记了细节、混淆了任务类型，或者学到的规则仅适用于狭窄的例子。关键在于，代理记忆不应自动将每次经历重写为总结，因为保留原始证据并偶尔进行总结效果更好。该论文实际上提出，代理记忆应将过去的原始经历视为重要证据，而不是需要总结掉的一次性笔记。 ---- 论文链接 – arxiv.org/abs/2605.12978 论文标题："Useful Memories Become Faulty When Continuously Updated by LLMs"

查看原文

查看缓存全文

缓存时间: 2026/05/19 02:41

伊利诺伊大学+清华大学等实验室的新研究发现，LLM智能体的记忆仍然不可靠，而且当它们不断重写自己的记忆时，情况可能会变得更糟。

LLM智能体可以从经验中学习，但它们重写后的记忆常常变得不可靠。

问题在于，许多智能体系统通过要求LLM将杂乱的经验压缩成整洁的文字经验总结来存储过去的工作。

这听起来很有用，因为智能体应该记住之前有效的方法，但该论文发现，反复重写会逐渐损害记忆。

核心思想是：原始的事件记录——即过去的实际尝试和解决方案——通常比基于它们打磨出的经验总结更有用。

作者在网页购物、模拟世界、应用使用以及ARC风格的谜题问题等任务上测试了这一观点，在这些任务中他们可以控制正确的解决方案。

最显著的结果是：GPT-5.4在无记忆的情况下解决了100%的小型ARC-AGI数据集，但在基于正确解决方案构建记忆后，流式更新将完成率降至约54%。

失败的原因来自错误分组、过度泛化的经验总结以及过拟合——记忆会遗忘细节、混淆任务类型，或者只适用于狭隘例子的规则。

关键结论是：智能体记忆不应自动将每次经历重写成总结，因为保留原始证据、仅偶尔进行总结效果更好。

该论文实质上提出，智能体记忆应将原始的过去事件视为重要证据，而不是可以轻易总结掉的随手笔记。

论文链接 – arxiv. org/abs/2605.12978

论文标题：“Useful Memories Become Faulty When Continuously Updated by LLMs”

@chenchengpro: 给 LLM Agent 堆越花哨的"记忆"架构，效果不一定越好。一篇新论文实测了 12 个记忆系统，没有通用赢家。它把 Agent 记忆当成数据库来拆——表示与存储、抽取、检索与路由、维护四个模块，拉来 Mem0、Letta、Zep、C…

X AI KOLs Timeline

一篇论文系统评估了12个LLM Agent记忆系统，将其拆分为四个模块，发现没有单一架构在所有场景下占优，并揭示了成本-性能权衡和常见问题（如“过去的幻觉”）。

@rohanpaul_ai: 伊利诺伊大学和清华大学等实验室的新研究发现，LLM代理的记忆仍然不可靠，并且可能…

相似文章

STALE：LLM智能体能否识别记忆何时失效？

@dylan_works_: 写了一些我最近一直在研究的有趣发现：当 LLM agent 反复将自身经历改写成文本形式的“经验……

当被 LLM 持续更新时，有用的记忆会变得有缺陷（30 分钟阅读）

LLM持续更新时，有用记忆会变得不可靠

@chenchengpro: 给 LLM Agent 堆越花哨的"记忆"架构，效果不一定越好。一篇新论文实测了 12 个记忆系统，没有通用赢家。它把 Agent 记忆当成数据库来拆——表示与存储、抽取、检索与路由、维护四个模块，拉来 Mem0、Letta、Zep、C…

提交意见反馈

相似文章

STALE：LLM智能体能否识别记忆何时失效？

@dylan_works_: 写了一些我最近一直在研究的有趣发现：当 LLM agent 反复将自身经历改写成文本形式的“经验……

当被 LLM 持续更新时，有用的记忆会变得有缺陷（30 分钟阅读）

LLM持续更新时，有用记忆会变得不可靠

@chenchengpro: 给 LLM Agent 堆越花哨的"记忆"架构，效果不一定越好。一篇新论文实测了 12 个记忆系统，没有通用赢家。 它把 Agent 记忆当成数据库来拆——表示与存储、抽取、检索与路由、维护四个模块，拉来 Mem0、Letta、Zep、C…

提交意见反馈

@chenchengpro: 给 LLM Agent 堆越花哨的"记忆"架构，效果不一定越好。一篇新论文实测了 12 个记忆系统，没有通用赢家。它把 Agent 记忆当成数据库来拆——表示与存储、抽取、检索与路由、维护四个模块，拉来 Mem0、Letta、Zep、C…