LLM持续更新下有用记忆变得不可靠

arXiv cs.AI 论文

摘要

本文表明,使用LLM将过去的经验持续整合到文本记忆中会随着时间的推移降低记忆效用,并且保留原始情景轨迹优于强制整合,这对构建鲁棒的智能体记忆系统具有启示意义。

arXiv:2605.12978v1 公告类型:新 从过去的经验中学习得益于两种互补的记忆形式:情景痕迹——事件发生的原始轨迹——以及跨多个情景提炼出的可复用的图式化经验总结。最近的智能体记忆系统追求后一种形式:LLM将过去的轨迹重写为文本记忆库,并不断用新的交互更新它,从而有望在不更新参数的情况下实现自我改进的智能体。然而,我们发现,即使从有用的经验中推导,当前LLM产生的这种整合记忆也常常存在缺陷。随着整合的进行,记忆效用先上升后下降,甚至可能低于无记忆基线。更令人惊讶的是,即使从真实解决方案中整合,GPT-5.4在之前没有记忆就能解决的一组ARC-AGI问题中,有54%失败。我们将这种退步追溯到整合步骤,而非基础经验:相同的轨迹在不同的更新计划下会产生性质不同的记忆,而仅保留这些轨迹的情景记忆控制方法与我们测试的整合方法相比仍然具有竞争力。在暴露了保留、删除和整合操作的受控ARC-AGI Stream环境中,智能体默认保留原始情节,其准确率是强制整合版本的两倍;完全禁用整合(仅情景管理)与这种自动模式相匹配。实际上,鲁棒的智能体记忆应将原始情节视为第一手证据,并明确控制整合,而不是在每次交互后都触发整合。展望未来,可靠的智能体记忆将需要LLM能够在不覆盖其所依赖的证据的情况下进行整合。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/14 06:14

# 当由LLM持续更新时,有用记忆会变得不可靠
来源:https://arxiv.org/abs/2605.12978
查看PDF(https://arxiv.org/pdf/2605.12978)

> 摘要:从过往经验中学习受益于两种互补的记忆形式:情景痕迹——所发生事件的原始轨迹——以及跨多个情节提炼而成的可重用类模式经验(即整合抽象)。当前的智能体记忆系统追求整合形式:由LLM将过往轨迹重写为文本记忆库,并随着新交互持续更新,期望在不更新参数的情况下实现自我改进的智能体。然而我们发现,当前LLM产生的这类整合记忆即使源自有用经验也常常存在缺陷。随着整合的进行,记忆效用先上升后下降,甚至可能低于无记忆的基线水平。更令人惊讶的是,即使在从真实解进行整合时,GPT-5.4在面对一套先前无记忆即可解决的ARC-AGI问题时,仍有54%的失败率。我们将这种能力退化追溯至整合步骤而非底层经验:同一轨迹在不同更新计划下会生成性质不同的记忆;而仅保留轨迹的纯情景控制方法,在我们测试的整合方法中依然保持竞争力。在暴露了保留、删除和整合操作的可控ARC-AGI Stream环境中,智能体默认保留原始情节,其准确性是强制整合方案的两倍;完全禁用整合(仅管理情景)能达到与这种自动模式相同的效果。在实践中,稳健的智能体记忆应将原始情节视为第一类证据,并明确地控制整合触发条件,而非每次交互后都进行整合。展望未来,可靠的智能体记忆需要LLM能够在整合时不覆盖其所依赖的证据。

## 提交历史

来自:Dylan Zhang[查看邮件](https://arxiv.org/show-email/c64ee13f/2605.12978)**[v1]**2026年5月13日星期三 04:15:50 UTC(455 KB)

相似文章

LLM持续更新时,有用记忆会变得不可靠

Hugging Face Daily Papers

一项研究发现,在基于LLM的智能体系统中持续更新整合记忆会降低性能,而保留原始情节轨迹更为可靠。在ARC-AGI上的实验显示,即使GPT-5.4在整合后也更容易失败。

@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…

X AI KOLs Following

本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。