从回想到遗忘:为个性化智能体评估长期记忆
摘要
研究者推出 Memora 基准,衡量大模型在持续数周至数月的对话中保留、更新与遗忘用户长期记忆的能力,发现模型常复用已失效记忆。
arXiv:2604.20006v1 公告类型:新
摘要:长期与用户交互的个性化智能体必须跨会话保持持久记忆,并随情境变化及时更新。然而,现有基准多将长期记忆评估简化为对过往对话的事实检索,无法洞察智能体随时间整合记忆或应对知识频繁更新的能力。我们推出 Memora,一个覆盖数周至数月用户对话的长期记忆基准,评估三项记忆依赖任务:回忆、推理与推荐。为保证数据质量,我们采用自动记忆锚定检查与人工评估。进一步提出“遗忘感知记忆准确率”(FAMA),在评估长期记忆时对依赖过时或失效记忆的行为予以惩罚。对 4 个大模型和 6 种记忆智能体的评估显示,模型频繁复用无效记忆,难以调和不断演化的记忆。记忆智能体仅带来边际提升,暴露出个性化智能体长期记忆的显著短板。
查看缓存全文
缓存时间: 2026/04/23 10:03
# 面向个性化智能体的长期记忆基准测试 来源:https://arxiv.org/html/2604.20006 ## 从回忆到遗忘:面向个性化智能体的长期记忆基准测试 Md Nayem Uddin¹,² Kumar Shubham² Eduardo Blanco³ Chitta Baral¹ Gengyu Wang² ¹亚利桑那州立大学 ²Genies ³亚利桑那大学 [email protected], [email protected] ###### 摘要 与用户长期互动的个性化智能体必须跨会话保持持久记忆,并随情境变化更新记忆。然而,现有基准大多将长期记忆评估简化为“过往对话事实检索”,无法检验智能体随时间整合记忆或频繁更新知识的能力。我们提出 Memora——一个覆盖数周到数月用户对话的长期记忆基准,评估三项依赖记忆的任务:回忆、推理与推荐。为保证数据质量,我们采用自动记忆锚定检查与人工评估。进一步提出“遗忘感知记忆准确率”(FAMA),该指标在评估长期记忆时惩罚对过时或失效记忆的依赖。对 4 个 LLM 与 6 款记忆智能体的评测显示,模型频繁复用无效记忆,且难以调和不断演化的记忆。记忆模块仅带来边际提升,暴露出个性化长期记忆的短板。 ## 1 引言 表 1:现有长期记忆基准在“记忆整合”与“记忆变更”上的对比。*记忆整合*指回答问题需回溯的会话数量;*记忆变更*指查询前跨会话的更新或删除次数。我们报告各基准的平均(Avg.)与最大(Max.)值。Memora 在每周、每月、每季度设定下显著提高了整合与变更难度。 11脚注:代码与数据开源地址:https://github.com/geniesinc/Memora 大语言模型(LLM)已迅速成长为通用智能体,展现出强大推理(Huang and Chang, 2023)、指令遵循(Xu et al., 2023;Wen et al., 2024)、高质量内容生成(Liang et al., 2024)与跨任务适应能力(Radford et al., 2019;Kojima et al., 2022)。这些进展激发了将 LLM 部署为个性化助手(Yuan et al., 2025)、导师(Chen et al., 2024)与终身伴侣(Zhang et al., 2025)的兴趣。然而,尽管表面流畅,当前 LLM 仍因缺乏持久长期记忆而受限(Zhong et al., 2023;Wu et al., 2025)。默认情况下,LLM 在交互间无状态(Mei et al., 2025)。虽然单轮对话内可凭键值缓存维持短期上下文,但一旦交互结束,该内部状态即被丢弃。于是,用户此前分享的偏好、纠正或目标,除非再次显式输入,否则无法保留,导致 LLM 无法成为可连日、连周、连月持续互动的助手。 见图注 图 1:Memora 基准的三项任务:1)回忆:召回并利用先前讨论过的事实(如待办事项);2)推理:整合多条信息得出具体答案(如计算杂货预算余额);3)推荐:基于用户不断变化的偏好建议物品或行动(如用户厌倦 Christopher Nolan 电影后推荐《布达佩斯大饭店》)。每项任务均需从非连续、时间遥远的会话中选择性提取并复用信息,强调超越近期上下文的长期记忆。 人类认知形成鲜明对比:人们会自然记住过往对话(Brown-Schmidt et al., 2025)、跨时间整合信息(Mazurek et al., 2003)、面对新证据时修正信念(Hogarth and Einhorn, 1992)、丢弃过时知识(Bekinschtein et al., 2018;Ye et al., 2020)。长期记忆不仅指回忆(Ericsson and Kintsch, 1995),更在于积累经验(Meeter and Murre, 2004)、调和变化(Wood et al., 2012)、维持连贯的世界模型(Jones et al., 2011)。对话智能体若要近似此行为,就必须不仅记住过往信息,还能在多轮互动中整合记忆,并随情境变化更新记忆。 尽管长期记忆研究升温,现有基准(Maharana et al., 2024;Du et al., 2024;Jiang et al., 2025)仍将其操作化为“跨会话事实检索”,而非持续记忆积累。LoCoMo(Maharana et al., 2024)中 94 % 的评估题仅需最多两轮前会话证据;LongMemEval(Wu et al., 2024)中该比例为 85 %。表 1 显示,各基准的平均记忆整合仅约 1 个会话。这种分布将多数评测简化为“能否想起上一轮提到的孤立信息”,而非“能否综合长期互动史”。此外,检索中心框架默认存储信息永久有效;然而真实长期互动非平稳:用户信息会被更新、纠正或撤回。因此,长期记忆不仅要回忆,还需正确处理记忆变更。表 1 显示,先前基准对记忆变更施压不足:LongMemEval 虽含知识更新,但限制在评估前最多两轮;PersonaMem 仅跨三轮处理更新。模型极少需调和同一信息的多次修订,或追踪用户状态在长周期上的演化。 为此,我们提出 Memora——将长期记忆建模为持续演化过程,而非静态检索。Memora 通过要求模型整合跨周、跨月、跨季度的会话信息,同步提升记忆整合与变更难度。图 1 显示,Memora 评估三项依赖记忆的任务:回忆、推理、推荐,所有任务均需遵守用户长期记忆的时间有效性。 除基准设计外,Memora 重新审视长期记忆评估方式。现有评估大多“奖励纳入记忆”,仅衡量相关信息是否出现在模型回复中,忽视记忆误用——即取出过时信息并加以使用。只要最终答案看似正确,依赖失效记忆便不受罚。为此,我们提出“遗忘感知记忆准确率”(FAMA),显式考虑无效记忆:奖励正确使用有效记忆,惩罚依赖过时或已删除记忆,从而可在长互动史中评估记忆变更。 借助 Memora,我们评测 4 个 LLM 与 6 款长期记忆智能体。尽管扩展了上下文窗口并外挂记忆机制,结果仍显示:在高整合与高频变更压力下,模型持续失败于维持一致信念状态,频繁复用过时信息,长期记忆模块仅带来有限提升。 综上,本文主要贡献包括: - 提出 Memora,显著增加跨周、月、季度的记忆整合与变更难度。 - 提出 FAMA 指标,惩罚对过时记忆的依赖。 - 实证评估 LLM 与长期记忆智能体,揭示维持一致记忆状态的局限。 这些贡献使 Memora 成为研究长期记忆的严格基准。通过同步施压记忆整合、频繁记忆变更与遗忘感知评估,Memora 暴露了检索中心基准无法显现的失效模式。 ## 2 相关工作 长期记忆与长上下文建模(Bai et al., 2024;Zhang et al., 2024a;Hsieh et al., 2024)是本质不同的问题。现实场景下,把整个互动史塞入提示既不现实(Lewis et al., 2020;Packer et al., 2023)也常适得其反(Liu et al., 2024;Du et al., 2025)。有效智能体(Park et al., 2023)必须依赖持久且可更新的长期记忆机制,而非单纯加长上下文。 早期对话记忆基准仅依赖有限会话史(Xu et al., 2022a)。随着上下文窗口扩大,后续基准主要强调“拉长对话”与“显式记忆探测”,包括个人事实定向回忆(Zhong et al., 2024;Du et al., 2024)、长多会话对话的问答与摘要(Maharana et al., 2024)、电视剧对话的叙事驱动回忆(Kim et al., 2025)、百万 token 级用户–助手对话(Wu et al., 2024)。 另一并行研究将长期记忆主要视为个性化,目标是让智能体在长期互动中适应单个用户。早期基准如 DuLeMon(Xu et al., 2022b)评估人格一致对话生成;PersonaMem(Jiang et al., 2025)转向个性化决策,用多选题测试模型能否从长历史推断演化中的用户状态;MemDaily(Zhang et al., 2024b)建模日常生活助理互动,探测用户特定事实与事件;MemoryAgentBench(Hu et al., 2025)将个性化记忆评估扩展到智能体场景,强调检索、测试时学习与遗忘等能力。 总体而言,先前工作通过“拉长对话”或“个性化”扩展了长期记忆评估的尺度与范围,但均主要将其操作化为“过往互动事实检索”,对记忆整合与频繁记忆变更关注有限。因此,现有智能体在跨长周期整合信息或处理演化与失效记忆方面能力如何,仍不清楚。Memora 通过同步施压整合与变更,瞄准这一挑战。 ## 3 Memora Memora 通过“仿真驱动”流水线构建,联合生成长期对话与评测任务。以人格级种子数据为起点,流水线模拟跨越数周到数月的用户互动,将其转为多轮对话,并导出依赖记忆的评测任务。设计聚焦记忆整合与记忆变更,要求模型在回忆、推理、推荐任务中遵守信息的时间有效性。 ### 3.1 种子数据设计 我们构建 10 份职业人格档案(如软件工程师、研究员、设计师、高管),包含偏好模式、活动倾向与长期目标,作为基准语义骨架。Memora 建模三类以用户为中心的记忆: - *偏好记忆*:捕捉用户跨领域(电影、音乐、旅行等)不断演化的喜好。 - *活动记忆*:记录用户随时间的行为,包括个人活动(开销、健身、任务)与职业活动(起草文档、管理会议记录)。 - *目标记忆*:编码用户长期目标(如预算、健身指标)。 记忆演化由操作与时间约束控制,确保跨会话时序一致。详见附录 A。 ### 3.2 会话仿真 基于种子数据,会话仿真器生成跨越数周到数月的用户互动序列。种子数据定义可能的记忆实体空间,仿真器在显式时间与操作约束下决定这些实体何时被引入、更新或失效。仿真器还包含不增删改任何记忆的“记忆中性”会话(如闲聊、澄清),混合比例遵循先前对话基准观察到的交互模式(Wu et al., 2024;Deshpande et al., 2025)。仿真器维护持久记忆状态,该状态……
相似文章
先个性化再存储:面向长周期智能体的个性化记忆基准测试与学习
本文介绍了PerMemBench,这是首个用于评估基于LLM的智能体中个性化记忆系统的基准测试,并提出了一个会话级存储门控框架,该框架根据个体用户上下文调整记忆策略。
在 LongMemEval-S 上对智能体记忆检索进行基准测试 — Recall@5 达 98%,R@23 实现 100% 召回,仅依赖本地嵌入模型 (all-MiniLM-L6-v2),无需 LLM 与 API Key
作者分享了用于智能体记忆的 Python 库 memweave 的基准测试结果,该库仅使用本地嵌入且无需调用 LLM,便在 LongMemEval-S 上实现了 98% 的 Recall@5。本文详细介绍了实现方法,并与 mempalace 进行了性能对比,突出了其在不同问题类型上稳定的检索表现。
RecMem:基于重复的记忆整合方法,用于高效且有效的长期运行LLM智能体
RecMem是一种基于重复的记忆整合方法,适用于长期运行的LLM智能体,通过仅在语义相似的交互重复出现时调用LLM,可减少高达87%的令牌消耗,同时提高准确性。
MemGym:面向LLM智能体的长时记忆环境
MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。
STALE:LLM智能体能否识别记忆何时失效?
本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。