STALE：LLM智能体能否识别记忆何时失效？

Hugging Face Daily Papers 2026/05/07 00:00 论文

llm-agents memory-updating benchmark implicit-conflict state-aware commonsense-reasoning evaluation

摘要

本文识别了LLM智能体中的一个关键失效模式：当新证据与先前信念冲突时，它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架，揭示了即使最佳模型也仅达到55.2%的准确率，并提出了CUPMem作为鲁棒记忆修正的原型。

大型语言模型（LLM）智能体越来越需要维护连贯的长期个性化记忆，然而当前的基准主要衡量静态事实检索，忽略了在新证据出现时修正存储信念的能力。我们识别了一个关键且未被充分探索的失效模式——隐式冲突：后续观察使先前的记忆失效，但没有明确否定，需要上下文推断和常识推理来检测。为了严格评估这一能力，我们引入了STALE基准，包含400个专家验证的冲突场景（跨越三个探测维度的1,200个评估查询），覆盖100多个日常话题，上下文长度可达150K token。我们提出了一个三维探测框架，测试状态解析（检测先前的信念已过时）、前提抵抗（拒绝错误预设过时状态的查询）和隐式策略适应（在下游行为中主动应用更新后的状态）。对前沿LLM和专门记忆框架的系统评估揭示了检索更新证据与据此行动之间普遍存在的差距，即使评估的最佳模型也仅达到55.2%的整体准确率。模型常常接受用户查询中嵌入的过时假设，并且难以识别用户状态某一方面的变化何时应使相关记忆失效。为了建立状态感知记忆的初始基线，我们进一步提出了CUPMem原型，通过结构化状态整合和传播感知搜索来加强写入时的修正，表明显式状态裁决是实现鲁棒智能体记忆的一个有前景的方向。

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - STALE：LLM智能体能否知道其记忆何时已失效？

来源：https://huggingface.co/papers/2605.06527

摘要

大语言模型在出现新证据时难以更新个性化记忆，需要通过上下文推理和常识推理来检测隐式冲突——这一点已通过全面的基准测试和状态感知记忆系统的评估得到证实。

大语言模型（LLM）智能体日益需要维持连贯、长期的个性化记忆（https://huggingface.co/papers?q=personalized%20memory），但现有基准主要衡量静态事实检索，忽略了在新证据出现时修正已存储信念的能力。我们识别出一个关键且未被充分探索的失败模式——隐式冲突（https://huggingface.co/papers?q=Implicit%20Conflict）：后续观察结果在未明确否定的情况下使早期记忆失效，需要借助上下文推理和常识推理来检测。为严格评估这一能力，我们引入了STALE基准，包含400个经专家验证的冲突场景（涵盖三个探测维度的1200个评估查询），涉及100多个日常主题，上下文长度达150K词元。我们提出一个三维探测框架，用于测试：状态解析（https://huggingface.co/papers?q=State%20Resolution）（检测先前的信念已过时）、前提抵抗（https://huggingface.co/papers?q=Premise%20Resistance）（拒绝那些错误预设过时状态的查询）以及隐式策略适应（https://huggingface.co/papers?q=Implicit%20Policy%20Adaptation）（在后续行为中主动应用更新后的状态）。对前沿LLM和专用记忆框架的系统评估揭示了一个普遍存在的差距：模型能检索到更新的证据，却未能据此行动——即使表现最好的模型整体准确率也仅为55.2%。模型常常接受用户查询中嵌入的过时假设，并且难以识别用户状态某一方面的变化何时会使相关记忆失效。为建立状态感知记忆的初步基线，我们进一步提出了CUPMem（https://huggingface.co/papers?q=CUPMem）原型，通过结构化状态整合（https://huggingface.co/papers?q=structured%20state%20consolidation）和传播感知搜索（https://huggingface.co/papers?q=propagation-aware%20search）来增强写入时的修订能力，这表明显式状态裁决是构建鲁棒智能体记忆的一个有前景的方向。

查看arXiv页面（https://arxiv.org/abs/2605.06527）查看PDF（https://arxiv.org/pdf/2605.06527）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.06527）

将此论文放入你的智能体中：

hf papers read 2605.06527

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型README.md中引用arxiv.org/abs/2605.06527以在此页面显示链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集README.md中引用arxiv.org/abs/2605.06527以在此页面显示链接。

引用此论文的Spaces0

没有Space链接此论文

请在Space README.md中引用arxiv.org/abs/2605.06527以在此页面显示链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集（https://huggingface.co/new-collection）以在此页面显示链接。

STALE：LLM智能体能否识别记忆何时失效？

论文页面 - STALE：LLM智能体能否知道其记忆何时已失效？

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

当被 LLM 持续更新时，有用的记忆会变得有缺陷（30 分钟阅读）

从回想到遗忘：为个性化智能体评估长期记忆

@omarsar0: // LLM 智能体中的记忆诅咒 //（建议收藏）过长的历史记录显然会导致智能体性能下降，因为它们变得越来越…

从存储到经验：大语言模型智能体记忆机制演进综述

检索记忆中的时间有效性：消除AI代理在知识演化中的过时事实错误

提交意见反馈