一个分数就够了吗?重新思考序列演化LLM记忆的评价
摘要
引入SeqMem-Eval,一种用于序列演化LLM记忆的诊断评估框架,测量超越聚合指标的多个维度,揭示适应性与稳定性之间的权衡。
arXiv:2605.15384v1 公告类型:新
摘要:记忆在使大型语言模型(LLMs)能够通过随时间积累和复用经验来执行序列任务中发挥核心作用。然而,现有的LLM记忆评估大多依赖于聚合指标,如最终留出准确率或累积在线性能,这可能会掩盖诸如遗忘和负迁移等关键失败模式。本文引入了SeqMem-Eval,一种针对序列演化LLM记忆的诊断评估框架。受持续学习的启发,它针对一种测试时设置,其中记忆是外部的、由提示介导的,并在不修改模型参数的情况下进行更新。SeqMem-Eval不仅关注最终性能,还评估记忆状态在序列推理过程中如何演化、泛化、巩固经验以及保留有用信息。具体来说,它测量在线效用、留出泛化、反向迁移和遗忘,从而提供更细粒度的记忆质量视图。通过在多种任务和记忆方法上的广泛实验,我们表明更高的最终或累积准确率并不必然意味着更好的记忆质量:许多方法在获得强性能提升的同时,却遭受显著的遗忘或负迁移。此外,不同的记忆设计在适应性和稳定性之间表现出不同的权衡,而这些权衡在标准评估指标下是不可见的。
查看缓存全文
缓存时间: 2026/05/18 06:40
# 仅凭一个分数就够了吗?重新思考顺序演进的大语言模型记忆评估 来源:https://arxiv.org/html/2605.15384 宋伟东 弗吉尼亚大学 [email protected] 陈子涵* 弗吉尼亚大学 [email protected] 石承帅 普林斯顿大学 [email protected] 王鹏 弗吉尼亚大学 [email protected] 李俊东 弗吉尼亚大学 [email protected] 申聪 弗吉尼亚大学 [email protected] ###### 摘要 记忆在大语言模型(LLM)顺序执行任务中起着核心作用,它通过随时间积累和重用经验来支持模型运行。然而,现有的LLM记忆评估大多依赖聚合指标,例如最终保留准确率或累计在线性能。我们认为这些指标可能具有误导性:它们将不同的记忆行为压缩成一个单一数字,并掩盖了遗忘和负迁移等关键失效模式。在本文中,我们引入了SeqMem-Eval,一个用于顺序演进LLM记忆的诊断性评估框架。受持续学习的启发,它针对一个独特的测试时设置,其中记忆是外部的、由提示介导的,并且在不改变模型参数的情况下更新。SeqMem-Eval不仅仅测量最终记忆状态是否能提高性能,而是考察记忆状态在顺序推理过程中如何演化、泛化、巩固经验以及保留有用信息。具体来说,它衡量在线效用、保留泛化、后向迁移和遗忘,从而更细粒度地了解记忆更新是否有助于当前任务、泛化到未见任务、改善过去预测或降低先前获得的知识。通过在多种任务和记忆方法上的广泛实验,我们发现了若干先前被忽视的现象。特别地,我们表明更高的最终或累计准确率并不一定意味着更好的记忆质量:许多方法在表现出强劲性能提升的同时,却遭受显著的遗忘或负迁移。此外,不同的记忆设计在适应性和稳定性之间展现出不同的权衡,而这些在标准评估指标下是看不见的。我们的发现表明,聚合指标系统地遗漏了若干重复出现的失效模式,因此多维度视角对于理解LLM记忆至关重要。代码和评估框架可在以下网址获取:https://github.com/ShenGroup/SeqMem-Eval ## 1 引言 大语言模型(LLM)越来越多地配备外部记忆,以便在顺序任务上演进(Xiang等人,2026 (https://arxiv.org/html/2605.15384#bib.bib12);Fang等人,2025b (https://arxiv.org/html/2605.15384#bib.bib11);Wei等人,2025 (https://arxiv.org/html/2605.15384#bib.bib10)),模型期望能够积累经验并随时间调整行为。通过与任务或环境的持续互动,LLM生成了丰富的轨迹,其中不仅包含成功的解决方案,还包括失败的尝试、反馈信号和中间推理痕迹(Zhao等人,2024 (https://arxiv.org/html/2605.15384#bib.bib9))。这些轨迹不仅仅是过去交互的被动记录,还可以为优化未来决策、改进任务策略以及实现测试时适应提供宝贵的经验(Wei等人,2025 (https://arxiv.org/html/2605.15384#bib.bib10);Suzgun等人,2025 (https://arxiv.org/html/2605.15384#bib.bib6);Zhou等人,2025 (https://arxiv.org/html/2605.15384#bib.bib13))。这种顺序演进的系统是许多新兴应用的核心,包括推理助手(Ho等人,2025 (https://arxiv.org/html/2605.15384#bib.bib14))、工具使用智能体(Wang等人,2025b (https://arxiv.org/html/2605.15384#bib.bib15))和交互式决策系统(Zheng等人,2025 (https://arxiv.org/html/2605.15384#bib.bib16);Agrawal等人,2025 (https://arxiv.org/html/2605.15384#bib.bib17)),这些应用的性能不仅取决于当前输入,还取决于先前遇到的任务。Wei等人(Wei等人,2025 (https://arxiv.org/html/2605.15384#bib.bib10))通过将记忆视为在整个任务序列中检索、合成和更新的演进状态,对这一设置进行了形式化。这一视角超越了静态对话回忆的重要一步,突出了记忆在测试时适应和经验重用中的作用。 尽管取得了这些进展,但对顺序演进LLM记忆的评估仍然不完整。现有研究通常使用聚合性能指标来评估记忆方法,例如记忆构建后的最终保留准确率(Zhao等人,2024 (https://arxiv.org/html/2605.15384#bib.bib9))或沿序列的累计在线准确率(Wei等人,2025 (https://arxiv.org/html/2605.15384#bib.bib10);Suzgun等人,2025 (https://arxiv.org/html/2605.15384#bib.bib6))。这些指标虽然有用,但却将演进记忆系统的行为压缩成一个单一数字。因此,它们无法揭示记忆更新是否真正改善了未来行为、后续经验是否有助于巩固早期经验、或者系统是否遗忘了先前有用的知识。在实践中,相似的最终或平均准确率可能掩盖根本不同的学习动态:一种方法可能稳定积累可重用知识,而另一种方法可能表现出振荡行为或短暂的改进后随即退化。因此,聚合指标可能造成记忆质量相当的假象,即使底层记忆动态实质上不同。 图1:SeqMem-Eval:超越LLM记忆的聚合评估。左:在顺序设置中,LLM处理一个任务流,同时维护一个演进的记忆状态。中:现有评估将记忆性能简化为聚合指标,这掩盖了复杂的记忆动态并隐藏了重要行为。右:SeqMem-Eval将记忆质量分解为多个维度,包括在线效用、保留泛化、后向迁移、遗忘和效率,从而能够细粒度分析记忆如何演进。 在本文中,我们提出了SeqMem-Eval,一个用于顺序演进LLM记忆的诊断性评估框架。虽然受到持续学习(Wu等人,2022 (https://arxiv.org/html/2605.15384#bib.bib19);Lopez-Paz和Ranzato,2017 (https://arxiv.org/html/2605.15384#bib.bib18))的启发,但顺序演进LLM记忆是一种独特的测试时设置:LLM保持固定,适应通过对外部文本记忆的更新来实现,这些更新通过检索和上下文构建影响预测。因此,评估不仅应关注最终任务性能,还应关注这些记忆更新如何影响整个序列中的预测。SeqMem-Eval通过五个互补维度捕捉这一行为:在线效用、保留泛化、后向迁移、遗忘和效率。这些诊断指标共同揭示记忆更新是否有用、可迁移、稳定且成本有效,而不仅仅是提高聚合准确率。我们在多种任务、模型和代表性记忆方法下,按照SeqMem-Eval协议进行了系统的实证研究。我们的结果表明,标准的聚合指标可能具有误导性:具有高最终或在线准确率的方法仍可能表现出显著的遗忘、有限的后向迁移或从积累经验中的弱泛化。这些发现表明,当前的评估实践可能高估了LLM记忆的有效性,并掩盖了重要的失效模式。我们的贡献总结如下: - •诊断性评估框架。我们引入了SeqMem-Eval,一个受持续学习启发的框架,用于评估超越聚合准确率的顺序演进LLM记忆。 - •全面的实证研究。我们在统一的顺序评估协议下,对多种任务和模型上的代表性记忆方法进行了系统比较。 - •对记忆设计的可行发现。我们识别了关键失效模式,包括遗忘、有限的后向迁移和弱泛化,为更可靠的记忆增强型LLM提供了设计启示。 ## 2 相关工作 #### 顺序演进LLM记忆与评估。 记忆已成为使LLM智能体超越孤立输入并在顺序交互中适应的核心机制(Xiang等人,2026 (https://arxiv.org/html/2605.15384#bib.bib12);Fang等人,2025a (https://arxiv.org/html/2605.15384#bib.bib24);Madaan等人,2023 (https://arxiv.org/html/2605.15384#bib.bib25);Chhikara等人,2025 (https://arxiv.org/html/2605.15384#bib.bib26))。最近的记忆增强型智能体从先前的轨迹、反馈、反思或工作流中提取可重用信息,并利用这些信息改进未来的推理和决策(Wang等人,2025a (https://arxiv.org/html/2605.15384#bib.bib30);Chen等人,2025 (https://arxiv.org/html/2605.15384#bib.bib29);Fang等人,2025b (https://arxiv.org/html/2605.15384#bib.bib11);Zhong等人,2024 (https://arxiv.org/html/2605.15384#bib.bib27);Xu等人,2025 (https://arxiv.org/html/2605.15384#bib.bib28))。代表性方法包括基于反思或经验的方法如ExpeL(Zhao等人,2024 (https://arxiv.org/html/2605.15384#bib.bib9))、动态记忆构建方法如Dynamic Cheatsheet(Suzgun等人,2025 (https://arxiv.org/html/2605.15384#bib.bib6))、工作流级记忆方法如Agent Workflow Memory (AWM)(Wang等人,2024c (https://arxiv.org/html/2605.15384#bib.bib7)),以及基于检索或结构的记忆系统如G-Memory(Zhang等人,2025 (https://arxiv.org/html/2605.15384#bib.bib8))和Memento(Zhou等人,2025 (https://arxiv.org/html/2605.15384#bib.bib13))。这些方法在如何存储、检索和更新记忆方面有所不同,但共同目标是通过测试时经验重用来改进未来行为(Tang等人,2025 (https://arxiv.org/html/2605.15384#bib.bib33);Feng等人,2025 (https://arxiv.org/html/2605.15384#bib.bib32);Ho等人,2025 (https://arxiv.org/html/2605.15384#bib.bib14))。最近的基准研究工作进一步形式化了这一设置:例如,Evo-Memory(Wei等人,2025 (https://arxiv.org/html/2605.15384#bib.bib10))将静态数据集转换为顺序任务流,并评估那些在每次交互后搜索、合成和演进记忆的智能体。更广泛的自我演进智能体工作也将记忆和轨迹重用视为环境中心自我演进的一部分(Xiang等人,2026 (https://arxiv.org/html/2605.15384#bib.bib12);Gao等人,2025 (https://arxiv.org/html/2605.15384#bib.bib31))。然而,现有评估仍然在很大程度上依赖聚合指标,如最终保留准确率、累计在线准确率或平均成功率(Ouyang等人,2025 (https://arxiv.org/html/2605.15384#bib.bib34);Wu等人,2025 (https://arxiv.org/html/2605.15384#bib.bib35))。这些指标对于比较最终性能很有用,但提供的关于记忆动态的洞察有限,例如方法是否保留了有用信息。我们的工作通过关注诊断性评估而非提出另一种记忆架构,来补充先前的记忆方法和基准。 #### 持续学习评估与诊断指标。 我们的评估视角受到持续学习的启发,在持续学习中,模型从一系列任务中学习,同时试图获取新知识而不遗忘旧知识(Biesialska等人,2020 (https://arxiv.org/html/2605.15384#bib.bib36);Kirkpatrick等人,2017 (https://arxiv.org/html/2605.15384#bib.bib37);Wang等人,2024a (https://arxiv.org/html/2605.15384#bib.bib38))。经典的持续学习评估使用后向迁移、前向迁移和稳定性-可塑性权衡等指标来表征超越最终准确率的学习动态(Chaudhry等人,2018 (https://arxiv.org/html/2605.15384#bib.bib42),2019 (https://arxiv.org/html/2605.15384#bib.bib41);Lopez-Paz和Ranzato,2017 (https://arxiv.org/html/2605.15384#bib.bib18);Wu等人,2022 (https://arxiv.org/html/2605.15384#bib.bib19);Qi等人,2023 (https://arxiv.org/html/2605.15384#bib.bib39);Wang等人,2023 (https://arxiv.org/html/2605.15384#bib.bib40))。关于LLM持续学习的最新工作进一步强调了在保留先前能力的同时用新知识和技能更新大型模型的重要性(Shi等人,2025 (https://arxiv.org/html/2605.15384#bib.bib44);Wu等人,2024 (https://arxiv.org/html/2605.15384#bib.bib43))。顺序LLM记忆共享这种时间结构,但在一个关键点上有所不同:大多数记忆增强型智能体不更新模型参数,而是依赖外部、提示介导或基于检索的记忆状态(Zheng等人,2023 (https://arxiv.org/html/2605.15384#bib.bib47);Liang等人,2025 (https://arxiv.org/html/2605.15384#bib.bib46);Li等人,2025 (https://arxiv.org/html/2605.15384#bib.bib45);Wei等人,2025 (https://arxiv.org/html/2605.15384#bib.bib10))。因此,持续学习指标不能直接重用而不进行适配。我们通过定义关于演进记忆状态的在线效用、保留泛化、后向迁移和遗忘,将其诊断原则适配到顺序LLM记忆,从而实现对记忆行为超越聚合性能的细粒度分析。 ## 3 SeqMem-Eval:诊断性评估框架 我们提出SeqMem-Eval,一个用于评估顺序演进LLM记忆的诊断性框架。与经典持续学习不同,该设置保持LLM固定,通过外部记忆更新、检索和提示构建来改变行为。因此,评估应超越端点性能,衡量记忆是否在线有用、泛化到未见任务、巩固过去经验、保留已获得的效用,并且计算上高效。 ### 3.1 顺序记忆评估设置 遵循Wei等人(Wei等人,2025 (https://arxiv.org/html/2605.15384#bib.bib10)),我们考虑一个顺序演进记忆设置,其中LLM \(\mathcal{L}\) 与一系列任务交互,并维护一个随时间更新的外部记忆。令 \(\mathcal{D}=\{(x_t,y_t)\}_{t=1}^T\) 表示一个任务序列,其中 \(x_t\) 是步骤 \(t\) 的输入,\(y_t\) 是对应的目标。在每个步骤,模型维护一个记忆状态 \(M_t\),其中可能包含原始轨迹、检索到的示例、摘要、工作流、反思或其他形式的来自先前交互的积累经验。给定输入 \(x_t\),系统从当前记忆状态 \(M_t\) 中检索或构建一个上下文 \(C_t\),LLM 产生预测 \(\hat{y}_t = \mathcal{L}(x_t, C_t)\)。预测后,系统可能接收反馈 \(f_t\),例如正确性信号、执行结果或环境反馈。然后,记忆通过方法特定的更新函数进行更新: \[ M_{t+1} = \texttt{Update}(M_t, x_t, \hat{y}_t, f_t; \mathcal{L}), \] 其中 \(\mathcal{L}\) 被包含,因为一些记忆方法使用LLM本身来生成、精炼、压缩或重组记忆条目。对于不依赖基于LLM的记忆更新的方法,该参数可以省略,并且Update简化为一个非参数化操作,例如追加当前轨迹或更新检索索引。 这一公式抽象了一类广泛的顺序记忆方法,包括基于检索的记忆系统、反思型记忆构建方法以及工作流级记忆方法。该设置允许我们在不修改LLM参数的情况下评估记忆的动态特性。
相似文章
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。
你的评估会出问题,而你却察觉不到
讨论当前LLM评估方法的结构性弱点,这些方法未能预见能力的质变,并指出开发主动评估基础设施是实现安全能力跃升的关键瓶颈。
EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构
EvolveMem为LLM智能体引入了一种自演化记忆架构,通过LLM驱动的诊断和迭代研究周期来优化检索配置,在LoCoMo和MemBench等基准测试上取得了显著的性能提升。
MEME:多实体与动态记忆评估
MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。
@hyunji_amy_lee: LLM代理与记忆系统在持续更新的环境中运行(Git仓库、不断演变的文档)。它们必须处理…
MINTEval是一个新的基准,用于评估在频繁上下文变化的持续更新环境中LLM代理和记忆系统的表现。它显示当前系统性能不佳,典型系统的平均准确率仅为27.9%。