MemTrace:探究最终准确率在长期记忆中遗漏的内容
摘要
MemTrace 是一个基准,它在知识点层面评估 LLM 代理的记忆,探究事实在不同记忆年龄、问题类型和证据条件下的表现。它揭示出汇总的准确率掩盖了不同的失败模式,并且主要瓶颈是证据的使用而非检索。
arXiv:2606.17328v1 公告类型: new
摘要:LLM 代理越来越倾向于跨会话维护用户事实的长期记忆。然而,此类记忆通常通过聚合问题行或情节的准确率来评估。由于这种方法独立地对问题行进行评分,即使多个问题探究同一事实,也无法展示该事实在条件变化时的表现。我们引入了 MemTrace,这是一个以知识点为测量单位的基准:知识点是关于用户的单个类型化事实,而非单个问题。MemTrace 沿着三个受控维度探测每个事实:记忆年龄,定义为该事实在历史中出现过多少个会话之前;问题类型,涵盖当前状态、早期状态和变化轨迹;以及证据条件,涵盖存在、缺失和被错误前提所矛盾的情况。通过评估跨越四个范式的13种记忆系统配置,我们发现相似的汇总准确率隐藏了不同的失败:恢复一个事实的当前状态和早期状态并不意味着追踪了它的变化过程,而安全弃权并不意味着纠正了错误前提。主要瓶颈是证据的使用,而非检索:当系统失败时,证据可检索到的频率是其缺失频率的10倍。这些结果表明,改进长期记忆需要更好地利用可获取的证据,而不仅仅是增加存储或检索能力。
查看缓存全文
缓存时间: 2026/06/17 05:36
# MemTrace:探针长期记忆中最终准确率遗漏的细节
来源:https://arxiv.org/html/2606.17328
Xianxuan Long¹, Zhikai Chen¹, Shenglai Zeng¹, Shouren Wang², Kai Guo¹, Jiliang Tang¹
¹密歇根州立大学
²凯斯西储大学
{longxia2, chenzh85, zengshe1, guokai1, tangjili}@msu.edu [email protected]
###### 摘要
LLM 智能体越来越多地在会话之间维持用户事实的长期记忆。然而,这种记忆通常通过聚合问题行或回合上的准确率来评估。由于它独立地对问题行进行评分,即使多个问题行探查同一个事实,也无法显示该事实在条件变化时的行为。我们引入了 MemTrace,一个以知识要点为测量单位的基准——知识要点是用户的一个类型化事实,而不是单个问题。MemTrace 沿着三个受控维度探查每个事实:记忆时效(该事实在历史中出现的会话次数)、问题类型(当前、历史或变化轨迹)和证据条件(存在、缺失或与错误前提相矛盾)。评估了四个范式中的 13 种记忆系统配置,我们发现相似的聚合准确率掩盖了不同的失败:恢复事实的当前和历史状态并不意味着能追踪其变化,安全的弃权并不意味着能纠正错误前提。主要的瓶颈是证据使用,而非检索:当系统失败时,证据可检索到的频率比缺失的频率高 10 倍——因此,改进记忆取决于使用可触及的证据,而不是增加存储或检索。
MemTrace:探针长期记忆中最终准确率遗漏的细节
Xianxuan Long¹, Zhikai Chen¹, Shenglai Zeng¹, Shouren Wang², Kai Guo¹, Jiliang Tang¹
¹密歇根州立大学
²凯斯西储大学
{longxia2, chenzh85, zengshe1, guokai1, tangjili}@msu.edu [email protected]
## 1 引言
大语言模型(LLM)正从单轮助手转向跨多会话与用户交互的持久智能体(Deshpande et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib24); Shen et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib7); Deng et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib55))。在此设置下,记忆不仅仅是回忆孤立事实的问题。一个有用的系统(Hu et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib1); Huang et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib2))需要记住用户特定信息,在用户状态改变时进行更新,并在目标和偏好演化时保持答案的一致性(Deshpande et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib24); Zhang et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib39); Chen et al., 2026b (https://arxiv.org/html/2606.17328#bib.bib58))。这一需求目前正被多个研究方向所解决,包括将更多历史保留在输入中的长上下文模型(Gemini Team, Google DeepMind, 2025 (https://arxiv.org/html/2606.17328#bib.bib30); OpenAI, 2025 (https://arxiv.org/html/2606.17328#bib.bib33); Qwen Team, 2025b (https://arxiv.org/html/2606.17328#bib.bib28))、在推理时检索证据的检索增强系统(Asai et al., 2024 (https://arxiv.org/html/2606.17328#bib.bib47); Jimenez Gutierrez et al., 2024 (https://arxiv.org/html/2606.17328#bib.bib19))、维持持久记忆存储的外部记忆系统(Liu et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib27); Zhong et al., 2023 (https://arxiv.org/html/2606.17328#bib.bib53)),以及使用策略或智能体来管理跨交互记忆的智能体记忆架构(Wang and Chen, 2025 (https://arxiv.org/html/2606.17328#bib.bib20); Yue et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib41))。
请参阅图注 图 1:一个聚合的 QA 视图可能将一个最终答案标记为正确,但同时掩盖了同一知识要点上的其他失败。在此示例中,系统正确回答了当前角色,但当同一个角色事实被作为历史衰老问题和轨迹问题进行探查时,系统却失败了。
许多当前的长期记忆基准通过聚合问题行或交互回合上的准确率进行评估(Yen et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib22); Tavakoli et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib9)),这掩盖了不同查询之间的差异。这种聚合隐藏了系统在哪里失败,但这只是表面问题。更深层的问题是测量单位:准确率是按问题行或每交互回合评分的,因此探查同一个基础事实的问题被视为独立项。结果,基于该单位的任何分数都无法固定一个事实并询问它在条件变化时的行为。这些条件在实践中很重要:一个系统可能在事实较近时记得,但在多个会话后忘记;可能回答事实的当前状态,但无法回答它是如何变化的;可能对未提及的事实拒绝回答,却又接受关于它的错误前提。捕捉这些对比需要固定事实并改变其周围的条件。图 1 (https://arxiv.org/html/2606.17328#S1.F1) 给出了一个例子。
区分这些失败至关重要,因为它们反映了记忆系统在实践中的使用方式。用户会询问事实的当前状态、追溯到较早状态、以及询问事实随时间如何变化。他们还会提出证据缺失的问题(系统应弃权)或前提与存储信息冲突的问题(系统应拒绝该前提)。聚合这些维度的基准无法显示哪种行为失效,即使两个系统拥有相似的聚合分数。
我们引入了 MemTrace,一个以**知识要点**为测量单位的基准:知识要点是用户的一个类型化事实,而不是单个问题。对于每个事实,MemTrace 沿着受控维度构建重复的探针。**记忆时效**衡量该事实首次出现在历史中以来经过了多少会话。**问题类型**询问当前状态、先前状态或随时间变化的轨迹。**证据条件**控制相关证据是存在、缺失还是被错误前提所矛盾。这些维度共同将 MemTrace 打造成一个包含来自 20 个用户的 835 个类型化知识要点、扩展为 15,422 个问题行和超过 200,000 个评分答案的基准。
MemTrace 中每个用户事实都会被重复探查,这让我们能够询问:随着会话积累,记忆是否持久?系统是否跟踪事实的状态和演变?当证据缺失或冲突时,系统是否行为安全?我们还在 MemTrace 上评估了四个范式下的 13 种记忆系统配置;我们的主要发现如下:(1)性能在记忆时效、问题类型和证据条件上系统性地变化。长上下文系统能很好地回答近期事实,但随着事实老化,准确率下降,尤其是对轨迹问题。RAG 系统,包括基于图的检索,处理当前和早期状态问题比处理需要跟踪随时间变化的问题更好。一些外部记忆系统几乎拒绝对所有从未被提及的事实的问题,但很少在提示包含错误前提时正确回答。(2)在所有系统中,主要的剩余差距是证据使用而非检索:当系统失败时,证据可检索到的频率比缺失的频率约高 10 倍。我们的贡献是:
- 我们引入了 **MemTrace**,一个基于知识要点的基准,围绕长期记忆评估的核心三个探查维度构建:记忆时效、问题类型和证据条件。这些维度测试了记忆保持、多样化事实查询以及在缺失或冲突证据下的安全行为。
- 我们评估了四个范式下的 13 种记忆系统配置,并展示了具有相似聚合分数的系统以不同方式失败。特别是,轨迹问题暴露了一个广泛的弱点:能够恢复事实当前或早期状态的系统,在询问事实如何随时间变化时仍然可能失败。
- 我们提供了记忆失败来源的诊断分析。在所有系统中,主要瓶颈是证据使用而非检索:失败中由于未使用的证据比由于不可触及的证据多 10 倍。
## 2 相关工作
#### 记忆架构。
持久化 LLM 智能体促成了几种记忆架构。长上下文模型直接从提示中读取先前的交互。检索增强系统在生成前索引并检索外部证据(Lewis et al., 2020 (https://arxiv.org/html/2606.17328#bib.bib46); Robertson and Zaragoza, 2009 (https://arxiv.org/html/2606.17328#bib.bib31); Jimenez Gutierrez et al., 2024 (https://arxiv.org/html/2606.17328#bib.bib19))。显式或智能体记忆系统维护专用的存储和用于写入、更新和检索记忆的策略。一些系统将记忆组织为显式的智能体状态(Park et al., 2023 (https://arxiv.org/html/2606.17328#bib.bib48); Packer et al., 2023 (https://arxiv.org/html/2606.17328#bib.bib49); Chhikara et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib18));另一些研究轻量级记忆存储(Liu et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib27); Shu et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib26); Xu et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib25))或记忆管理智能体(Wang and Chen, 2025 (https://arxiv.org/html/2606.17328#bib.bib20); Yue et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib41))。这种架构多样性使得最终答案准确率成为比较记忆系统的不完整方法。
请参阅图注 图 2:MemTrace 的构建和评估示意图。(A)将源会话转换为带有会话锚点并经过质量检查的类型化知识要点。(B)探针构建将每个知识要点与一个记忆窗口和证据条件配对,然后通过问题类型将基础探针扩展为问题行。(C)对记忆系统的响应进行评分,并汇总成记忆维持、证据条件行为和失败归因的诊断视图。
#### 记忆基准。
记忆评估涵盖了长上下文压力测试(Bai et al., 2024 (https://arxiv.org/html/2606.17328#bib.bib42); Zhang et al., 2024 (https://arxiv.org/html/2606.17328#bib.bib43); Hsieh et al., 2024 (https://arxiv.org/html/2606.17328#bib.bib44))、更新的长上下文测试套件(Bai et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib45))以及长期对话记忆(Xu et al., 2022 (https://arxiv.org/html/2606.17328#bib.bib56); Maharana et al., 2024 (https://arxiv.org/html/2606.17328#bib.bib10); Wu et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib11))。其他基准关注个性化(Jiang et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib13); Bian et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib54))、智能体记忆(Hu et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib15); Tavakoli et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib9))、动态档案和演变的偏好(Li et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib36); Uddin et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib6))、过时或幻觉记忆(Chao et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib34); Tan et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib16)),以及缺失或冲突证据(Chen et al., 2026a (https://arxiv.org/html/2606.17328#bib.bib3); Ai et al., 2026 (https://arxiv.org/html/2606.17328#bib.bib17))。这些基准扩展了记忆系统的评估,但通常对问题行或交互结果进行评分并聚合。MemTrace 使用知识要点作为分析单位。每个事实在多个窗口、问题类型和证据条件下被探查,因此行为是在知识要点上测量的,而不是跨独立问题行平均得到的。
## 3 MemTrace 基准
与主要评估孤立问题行或聚合语料级准确率的现有基准不同,MemTrace 使用**知识要点**作为测量单位。知识要点是用户的一个类型化事实。对于每个知识要点,我们构建重复的探针,在保持底层事实不变的同时,变化记忆时效、问题类型和证据条件。这种设计使我们能够测试聚合 QA 分数通常合并的三种行为:随着会话积累事实是否仍然可用,系统能否回答关于同一事实的当前、历史和轨迹问题,以及在证据存在、缺失或被矛盾时系统是否行为适当。图 2 (https://arxiv.org/html/2606.17328#S2.F2) 展示了完整的构建和评估流程:源会话被转换为知识要点,扩展为受控探针,通过记忆系统响应进行评分,并汇总为诊断视图。表 1 (https://arxiv.org/html/2606.17328#S3.T1) 将该协议与代表性的长期和个性化记忆基准(Maharana et al., 2024 (https://arxiv.org/html/2606.17328#bib.bib10); Wu et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib11); Jiang et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib13); Chen et al., 2026a (https://arxiv.org/html/2606.17328#bib.bib3); Hu et al., 2025 (https://arxiv.org/html/2606.17328#bib.bib15))进行了定位。
表 1:基准设计比较。行是协议轴,而非质量判断;✓ = 核心;∘ = 相关;– = 不是主要协议的一部分。
### 3.1 数据源与知识要点
为了沿受控维度评估系统,一个按事实的协议需要具有两个属性的源数据。首先,事实必须基于多会话用户历史,并且锚定到特定会话,以便定义记忆时效。其次,数据必须包含用于构建缺失证据和冲突探针的干扰项,以便测试证据条件。HaluMem-Medium(Chen et al., 2026a (https://arxiv.org/html/2606.17328#bib.bib3))提供了这两个属性。HaluMem 评估记忆系统在提取、更新和问答过程中是否产生幻觉。然而,其示例并非围绕在多种条件下查询的一个固定知识要点来组织。因此,我们使用 HaluMem-Medium 作为源数据,并将其历史、记忆点和诊断问题转换为知识要点探针。实质性知识要点是静态事实、具有早期和更新状态的动态事实或偏好事实。冲突和边界干扰项来自 HaluMem 的诊断问题,并针对按事实协议进行了重新表述。
该基准涵盖 20 个用户和 835 个类型化知识要点,扩展为 5,677 个基础探针、15,422 个问题行和跨四个范式 13 种记忆系统配置的 200,453 个评分答案(附录 A (https://arxiv.org/html/2606.17328#A1))。如表 2 (https://arxiv.org/html/2606.17328#S3.T2) 所示,635 个知识要点是实质性用户事实,200 个是用于冲突和边界探针的干扰知识要点。每个用户贡献 35–48 个知识要点(平均 41.8 个)。
表 2:MemTrace 中知识要点的分布:静态、动态和偏好是实质性事实;冲突和边界是干扰项。
### 3.2 探针构建
MemTrace 中的每个探针反映了在多会话对话中如何查询长期记忆系统。我们将评估视为一个平面问答任务,而是固定知识要点,并沿着聚合 QA 分数通常合并的三个维度对其进行评估:系统能保留它多久(*记忆时效*),系统能否在不同问题上下文中灵活利用它(*问题类型*),以及相似文章
MEMPROBE:通过隐藏用户状态恢复探测智能体长期记忆
MEMPROBE是一个基准,通过从智能体交互后的记忆中重建隐藏用户状态,来评估大语言模型智能体的长期记忆能力。
@hyunji_amy_lee: LLM代理与记忆系统在持续更新的环境中运行(Git仓库、不断演变的文档)。它们必须处理…
MINTEval是一个新的基准,用于评估在频繁上下文变化的持续更新环境中LLM代理和记忆系统的表现。它显示当前系统性能不佳,典型系统的平均准确率仅为27.9%。
从回想到遗忘:为个性化智能体评估长期记忆
研究者推出 Memora 基准,衡量大模型在持续数周至数月的对话中保留、更新与遗忘用户长期记忆的能力,发现模型常复用已失效记忆。
DeferMem:基于强化学习的查询时证据蒸馏在长期记忆问答中的应用
DeferMem 提出了一种面向 LLM 智能体的长期记忆框架,将记忆解耦为高召回率候选检索和基于强化学习的查询条件证据蒸馏,实现了领先的问答准确率和更快的运行时间。
记忆检索底层存在缺陷。
PrecisionMemBench 是一个开源基准测试,它将检索精度作为严格的单元测试来检验,结果揭示了诸如 Mem0、Zep 和 Hindsight 等流行的记忆框架精度极低(0.05-0.09),并且依赖 LLM 来弥补。文章主张在生产级记忆基础设施中对精度采取零容忍的硬失败策略。