检索记忆中的时间有效性:消除AI代理在知识演化中的过时事实错误
摘要
本文介绍了MemStrata,一种维护时间有效性的检索记忆系统,用于消除AI代理在知识演化中的过时事实错误。它在演化基准测试上优于RAG,同时保持静态召回率,使用确定性替代层而无需LLM调用。
arXiv:2606.26511v1 公告类型:新
摘要:检索增强生成(RAG)使智能体能够访问积累的知识,但缺乏时间模型。当某个事实发生变化(例如,函数被重命名或API重构),RAG会以几乎相同的嵌入相似度检索到过时和当前值。智能体要么弃权,要么提供已被取代的事实。我们证明这是一个结构性问题:在一个校准数据集上,余弦相似度区分矛盾事实与重复事实的AUROC仅为0.59(接近随机),因为矛盾事实的嵌入相似度通常比改写后的重复事实更接近原事实。
我们提出MemStrata,一种维护时间有效性的检索记忆。它像RAG一样存储事实,保留静态召回率,但当某个事实值被矛盾时,一个确定性的(主语、关系、对象)替代规则会在双时间账本中淘汰过时值——无需相似度阈值,无需LLM调用。在本地使用7B模型运行的六个基准测试中,MemStrata在静态知识上与RAG持平,在演化知识上达到0.95-1.00的准确率(而RAG仅为0.20-0.47)。核心结果是过时事实错误率:当需要回答时,RAG有15-40%的时间提供服务已被取代的值;MemStrata将此降至约0%,这是RAG无法避免的失败类别。MemStrata在检索延迟(约2.1秒)方面实现这一性能,而基于LLM重排序的基线约为16-18秒。我们发布了工具链、数据集以及知识演化下记忆的无标记评估协议。
查看缓存全文
缓存时间: 2026/06/26 05:17
# 消除针对演化知识的人工智能体中的过时事实错误 一个确定性替代层,其构造方式使检索增强生成无法企及 来源:https://arxiv.org/html/2606.26511(草稿 v2,时间有效性框架) ###### 摘要 检索增强生成(RAG)让语言模型智能体能够访问积累的知识,但它没有时间模型。当一个事实发生变化——函数被重命名、配置值或依赖版本被更新、API 被重构——RAG 会检索出过时值和当前值,且嵌入相似度几乎相同,无法判断哪个是最新的。智能体要么放弃回答,要么给出已被取代的事实。我们证明这不是调优问题,而是结构性问题:在一个校准数据集上,余弦相似度区分矛盾事实与重复事实的 AUROC 为 0.59(接近随机),而且矛盾事实与原始事实的嵌入相似度平均比改写重复更高。我们提出 MemStrata,一种维护时间有效性的检索记忆。它像 RAG 一样存储事实,保留静态知识的完全召回,但当一个事实的值被更新的断言矛盾时,通过确定性的(主体、关系、客体)替代规则在双时态账本中淘汰过时的值——无需相似度阈值,无需 LLM 调用。在六个完全运行于消费级硬件上、使用 7B 本地模型的基准测试中——两个静态(项目事实问答、多会话对话)和四个无标记演化(代码变更、配置迁移、依赖升级、API 演化)——MemStrata 在静态知识上与 RAG 持平(无召回代价),并在演化知识上达到 0.95–1.00 的准确率,而 RAG 仅为 0.20–0.47。核心结果是过时事实错误率:当必须回答时,RAG 有 15–40% 的概率给出已被取代的值;MemStrata 将其降至约 0%,这是 RAG 因其构造方式而无法避免的故障类别。MemStrata 的检索延迟约为 2.1 秒(嵌入地板),而基于 LLM 重排序和 LLM 验证的基线约为 16–18 秒,因为读取路径上无需运行语言模型。我们发布了工具链、提示、数据集和可复现的评估协议,并推荐一种无标记的基准不变性来评估知识演化下的记忆。 *为双盲提交,请匿名化作者块和产品/仓库标识符。所有数字来自干净的重新运行(REPORT_PAPER1.md、REPORT_PAPER1_forced.md、calibration/REPORT_synthetic.md),使用固定的纯文本评分器生成,本地且确定性(温度 0、种子 0、无网络)。提交前请从这些源文件重新生成所有图表。* ## 1 引言 语言模型智能体越来越多地被部署为持久协作伙伴,能够在多个会话中积累知识:学习代码库的编码助手、追踪文献的研究助手、了解系统配置的运维助手。对于这些智能体,限制性约束不再是原始模型能力,而是记忆——智能体如何编码、保留、检索并*保持最新*其所学内容。检索增强生成(Lewis 等人,2020)是主流的记忆机制。它将交互历史存储为嵌入块,在查询时检索最相似的 top-k,控制提示大小同时让模型访问大规模存储。RAG 在召回方面表现良好,但它有一个盲点,一旦存储的知识*演化*就会变得关键:它没有时间表示。当一个事实发生变化时,旧版本和新版本以几乎相同的嵌入留在存储中——“超时为 1800 秒”和“超时为 3600 秒”只差一个 token,在任何嵌入模型中都靠得很近。检索同时返回两者。模型没有原则性的方式判断哪个是当前的,因此要么放弃(拒绝一个它能回答的问题),要么猜测(通常自信地给出过时的值)。这对代码来说尤为严重,因为知识不断带外演化:函数被重命名、端点移动、配置迁移、依赖升级。一个自信地报告上个月端口号的助手比没用更糟。但这个问题是普遍的——任何事实具有有效期(组织事实、生物医学发现、时事)的领域都会出现。 一个自然的初步想法是用更好的相似度规则来解决过时问题:检测传入事实是否与存储的事实矛盾,然后更新而非追加。我们在第 3 节证明这个想法会因一个根本原因而失败。在一个校准数据集上,余弦相似度无法区分矛盾与重复——矛盾与原始事实的平均相似度*更高*(值翻转是最小编辑),而非真正的改写。没有任何阈值可以区分“这是对存储事实的重述”和“这与存储事实矛盾”。基于相似度的学习分类器在实践中也没有可靠帮助,正如我们的实验所示。机制必须是确定性和结构性的,而不是基于相似度的。 我们提出 MemStrata,一种通过确定性替代来维护时间有效性的检索记忆。其贡献包括: 1. 1. 基于相似度的过时检测的结构性不可能结果。在 98 个标注对上,区分矛盾与重复的余弦 AUROC 为 0.59,最大可达精度为 0.67——安全下限无法达到。矛盾事实与原始事实的嵌入相似度高于重复事实。(第 3 节、5.1 节) 2. 2. 时间有效性记忆架构。MemStrata 像 RAG 一样存储事实(完全静态召回),但在事实的值被矛盾时应用确定性的(主体、关系、客体)替代规则,在双时态账本中淘汰过时的值,无需相似度阈值和 LLM 调用。(第 4 节) 3. 3. 过时事实错误结果:RAG 无法避免的故障类别。当必须回答时,RAG 在四个演化基准中有 15–40% 的概率给出已被取代的值;MemStrata 将其降至约 0%。这是结构性的,而非调优问题——RAG 检索到两个值,但没有机制进行选择。(第 5.3 节) 4. 4. 用于评估记忆在演化下的无标记评估协议。我们构建了四个演化基准测试,其中过时和当前版本的事实除变化的值外文本完全相同,因此唯一的新旧信号是记忆系统的时间机制——并且我们展示了污染性文本标记会悄然提升基线。(第 4.5 节、第 5 节) 我们在消费级硬件上本地、确定性地运行所有实验,并明确说明限制条件:我们的演化基准是结构化的单值模板,对于更混乱的自然语言矛盾,提取质量——而非替代机制——是制约因素(第 7 节)。我们诚实地将此作为后续工作而非掩盖它。 ## 2 相关工作 **LLM 智能体的记忆。** 近期系统为智能体提供跨会话的持久记忆:可扩展的长期记忆流水线(Mem0; Chhikara 等人,2025)、具有分页和后台处理的操作系统风格记忆层次(MemGPT/Letta; Packer 等人,2023)以及用于模拟智能体的反思性自然语言记忆(Park 等人,2023)。这些针对对话和助手设置,强调召回深度,通常以长对话记忆(LoCoMo; Maharana 等人,2024)为基准。MemStrata 在机制上不同——一个维护有效性的确定性替代规则——并且在框架上不同:我们攻击的问题不是召回深度,而是知识演化下的过时事实抵抗。 **图与超图 RAG。** GraphRAG(Edge 等人,2024)及其后继——LightRAG(Guo 等人,2024)、NodeRAG(Xu 等人,2025)和 HyperGraphRAG(Luo 等人,2025);参见 Han 等人(2025)的综述——在实体关系图或 n 元超边上结构化检索,改进了静态语料上的多跳检索。它们丰富了关系的*表示*,但通过相似度在该表示上检索;没有引入事实新旧概念。对我们的框架至关重要的一点是,Zeng 等人(2025)在偏差控制协议下重新评估这些系统,发现它们相对于朴素 RAG 的优势远小于原始报告——在某些情况下甚至逆转——证实仅靠表示丰富度并不能解决我们针对的失败。MemStrata 是正交的:它添加时间有效性,并在演化语料而非静态语料上评估。 **时间知识图谱与双时态数据。** 双时态建模——区分*有效时间*(事实为真的时间)和*事务时间*(记录事实的时间)——在数据库中由来已久,由 Snodgrass 和 Ahn(1985)在分类法中形式化,发展为实际应用设计和数据管理(Snodgrass,1999;Jensen 和 Snodgrass,1999),后来在 SQL:2011 的系统版本化和应用周期表中标准化(ISO/IEC,2011)。时间知识图谱推理(三元组带有有效性区间)是一个活跃领域(Cai 等人,2024)。MemStrata 将双时态账本适配到 LLM 智能体记忆:事实被淘汰而非删除,为未来的按时间查询保留有效性区间。我们的贡献不是账本原语,而是将其与 LLM 记忆系统中确定性的提取时替代集成,以及经验性证明这解决了一个 RAG 无法解决的失败。 **幻觉与验证。** 验证增强型 RAG 添加自我检查以减少无根据生成;Self-RAG(Asai 等人,2023)学习反思 token,决定何时检索和批评生成文本。我们包括一个 LLM 相关性验证器基线,并表明它不能解决过时问题——它没有时间信号——且延迟成本约为 8 倍。过时问题的结构正确机制是时间性和确定性的,而非学习到的接地检查。 ## 3 过时问题及相似性为何无法解决 考虑一个智能体回答关于某个存储的问题,该存储在多个会话中累积了“服务运行在端口 8000”(更早记录)和“服务运行在端口 8080”(稍后记录,在迁移之后)。关于端口的查询会检索到两者:它们在嵌入空间中几乎相同。智能体必须判断哪个是当前的。RAG 不提供判断依据——检索按相似度排序,两者都与查询最大相似。诱人的修复方法是在写入时检测第二个事实*矛盾*第一个,然后更新而非追加。这需要区分传入事实与存储事实之间的三种关系:重复(重述)、矛盾(取代)或新颖。如果相似度能区分重复与矛盾,一个阈值规则就足够了。但它不能。第 5.1 节报告了校准结果:矛盾事实与原始事实的平均余弦相似度*更高*于重复事实,因为值翻转(“8000”→ “8080”)比同一事实的真实改写编辑距离更小。分布重叠如此严重,以至于在任何阈值下可达到的最大精度为 0.67,远低于安全自动更新规则所需。基于相似度特征的学些分类器在实践中也无法拯救(我们的 v6 和 v6_no_verify 条件,第 5 节):门控判断的矛盾调用不可靠,在放弃状态下,它们有 25–60% 的概率*泄露*过时事实。结论是:过时检测必须是*结构性的*:如果传入事实和存储事实共享(主体、关系)键但断言不同的客体,则较新的取代较旧的——无论它们的嵌入有多相似。这是 MemStrata 实现的机制。 ## 4 MemStrata 架构 MemStrata 是智能体与其语言模型之间的本地记忆层。它维护一个从交互中提取的事实存储,并为每个查询组成一个 token 预算有限的上下文块。我们描述在此评估的组件。 ### 4.1 写入路径:通过惊异门控的确定性替代 每个传入轮次产生一个候选事实。写入路径进行路由: 1. 1. 精确重复短路。标准化文本哈希以零成本丢弃逐字重复。 2. 2. 确定性断言路径。如果轮次表达了一个干净的三元组(主体、关系、客体)——其中客体是单个可变值——MemStrata 标准化(主体、关系)键,并检查是否存在该键的活动断言。如果存在且具有*不同*的客体,新断言*取代*它:旧行的有效性区间关闭(valid_to 设置,superseded_by 链接),新行打开。相同客体 → 重复(强化)。无先前键 → 新颖(存储)。无余弦,无 LLM 判断。 3. 3. 文本门控回退。非三元组散文通过惊异门控,使用相似度加 LLM 判断进行分类。关键的是(见第 4.3 节),此回退保留非矛盾的近似重复作为*不同*事实;它只丢弃精确重复。 ### 4.2 双时态账本 事实被淘汰而非删除。存储记录 valid_from、valid_to 和 superseded_by,因此被取代的事实仍然可用于未来的按时间查询(我们构建此能力但在此不评估;第 7 节)。活动检索仅显示当前有效的行。 ### 4.3 “保留,然后取代”的设计 时间层的一个早期变体激进压缩,在写入时合并近似重复事实以限制增长。干净的评估显示这*在静态召回上退步到 RAG 以下*:合并丢弃了回答后续问题所需的细节(temporal_v6_lossy 消融,第 5 节,在项目事实 QA 上降至 0.62,对话召回上降至 0.13)。因此发布的配置*像 RAG 一样保留*——存储不同的非矛盾事实——并仅在*关键的轴*上通过取代矛盾来限制增长。这一设计选择使系统在静态知识上与 RAG 持平,同时在演化知识上占据主导。我们将有损变体报告为消融,正是因为它孤立了这一决策。 ### 4.4 读取路径
相似文章
STALE:LLM智能体能否识别记忆何时失效?
本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。
从回想到遗忘:为个性化智能体评估长期记忆
研究者推出 Memora 基准,衡量大模型在持续数周至数月的对话中保留、更新与遗忘用户长期记忆的能力,发现模型常复用已失效记忆。
有没有其他人的智能代理会自信地“记住”已经变化的内容?
用户描述了一个问题:AI智能代理会自信地从记忆层中检索过时的事实,而不标记变化,并询问社区如何使旧的记忆失效或跟踪事实时效性。
学习检索:面向文本到SQL智能体的双层长期记忆
本文提出了MERIT,一种面向交互式文本到SQL智能体的动态多时域记忆检索框架,它使用情节级别和回合级别的记忆,并通过强化学习以及用于密集奖励的过程奖励模型优化的学习检索策略。在BIRD-Interact和Spider2-Snow上的实验表明,MERIT在成功率上优于静态和单时域动态基线,同时需要更少的交互轮次。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。