检索记忆中的时间有效性：消除AI代理在知识演化中的过时事实错误

arXiv cs.CL 2026/06/26 04:00 论文

摘要

本文介绍了MemStrata，一种维护时间有效性的检索记忆系统，用于消除AI代理在知识演化中的过时事实错误。它在演化基准测试上优于RAG，同时保持静态召回率，使用确定性替代层而无需LLM调用。

arXiv:2606.26511v1 公告类型：新摘要：检索增强生成（RAG）使智能体能够访问积累的知识，但缺乏时间模型。当某个事实发生变化（例如，函数被重命名或API重构），RAG会以几乎相同的嵌入相似度检索到过时和当前值。智能体要么弃权，要么提供已被取代的事实。我们证明这是一个结构性问题：在一个校准数据集上，余弦相似度区分矛盾事实与重复事实的AUROC仅为0.59（接近随机），因为矛盾事实的嵌入相似度通常比改写后的重复事实更接近原事实。我们提出MemStrata，一种维护时间有效性的检索记忆。它像RAG一样存储事实，保留静态召回率，但当某个事实值被矛盾时，一个确定性的（主语、关系、对象）替代规则会在双时间账本中淘汰过时值——无需相似度阈值，无需LLM调用。在本地使用7B模型运行的六个基准测试中，MemStrata在静态知识上与RAG持平，在演化知识上达到0.95-1.00的准确率（而RAG仅为0.20-0.47）。核心结果是过时事实错误率：当需要回答时，RAG有15-40%的时间提供服务已被取代的值；MemStrata将此降至约0%，这是RAG无法避免的失败类别。MemStrata在检索延迟（约2.1秒）方面实现这一性能，而基于LLM重排序的基线约为16-18秒。我们发布了工具链、数据集以及知识演化下记忆的无标记评估协议。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:17

# 消除针对演化知识的人工智能体中的过时事实错误  
一个确定性替代层，其构造方式使检索增强生成无法企及  

来源：https://arxiv.org/html/2606.26511（草稿 v2，时间有效性框架）  

###### 摘要  

检索增强生成（RAG）让语言模型智能体能够访问积累的知识，但它没有时间模型。当一个事实发生变化——函数被重命名、配置值或依赖版本被更新、API 被重构——RAG 会检索出过时值和当前值，且嵌入相似度几乎相同，无法判断哪个是最新的。智能体要么放弃回答，要么给出已被取代的事实。我们证明这不是调优问题，而是结构性问题：在一个校准数据集上，余弦相似度区分矛盾事实与重复事实的 AUROC 为 0.59（接近随机），而且矛盾事实与原始事实的嵌入相似度平均比改写重复更高。我们提出 MemStrata，一种维护时间有效性的检索记忆。它像 RAG 一样存储事实，保留静态知识的完全召回，但当一个事实的值被更新的断言矛盾时，通过确定性的（主体、关系、客体）替代规则在双时态账本中淘汰过时的值——无需相似度阈值，无需 LLM 调用。在六个完全运行于消费级硬件上、使用 7B 本地模型的基准测试中——两个静态（项目事实问答、多会话对话）和四个无标记演化（代码变更、配置迁移、依赖升级、API 演化）——MemStrata 在静态知识上与 RAG 持平（无召回代价），并在演化知识上达到 0.95–1.00 的准确率，而 RAG 仅为 0.20–0.47。核心结果是过时事实错误率：当必须回答时，RAG 有 15–40% 的概率给出已被取代的值；MemStrata 将其降至约 0%，这是 RAG 因其构造方式而无法避免的故障类别。MemStrata 的检索延迟约为 2.1 秒（嵌入地板），而基于 LLM 重排序和 LLM 验证的基线约为 16–18 秒，因为读取路径上无需运行语言模型。我们发布了工具链、提示、数据集和可复现的评估协议，并推荐一种无标记的基准不变性来评估知识演化下的记忆。  
*为双盲提交，请匿名化作者块和产品/仓库标识符。所有数字来自干净的重新运行（REPORT_PAPER1.md、REPORT_PAPER1_forced.md、calibration/REPORT_synthetic.md），使用固定的纯文本评分器生成，本地且确定性（温度 0、种子 0、无网络）。提交前请从这些源文件重新生成所有图表。*  

## 1 引言  

语言模型智能体越来越多地被部署为持久协作伙伴，能够在多个会话中积累知识：学习代码库的编码助手、追踪文献的研究助手、了解系统配置的运维助手。对于这些智能体，限制性约束不再是原始模型能力，而是记忆——智能体如何编码、保留、检索并*保持最新*其所学内容。检索增强生成（Lewis 等人，2020）是主流的记忆机制。它将交互历史存储为嵌入块，在查询时检索最相似的 top-k，控制提示大小同时让模型访问大规模存储。RAG 在召回方面表现良好，但它有一个盲点，一旦存储的知识*演化*就会变得关键：它没有时间表示。当一个事实发生变化时，旧版本和新版本以几乎相同的嵌入留在存储中——“超时为 1800 秒”和“超时为 3600 秒”只差一个 token，在任何嵌入模型中都靠得很近。检索同时返回两者。模型没有原则性的方式判断哪个是当前的，因此要么放弃（拒绝一个它能回答的问题），要么猜测（通常自信地给出过时的值）。这对代码来说尤为严重，因为知识不断带外演化：函数被重命名、端点移动、配置迁移、依赖升级。一个自信地报告上个月端口号的助手比没用更糟。但这个问题是普遍的——任何事实具有有效期（组织事实、生物医学发现、时事）的领域都会出现。  

一个自然的初步想法是用更好的相似度规则来解决过时问题：检测传入事实是否与存储的事实矛盾，然后更新而非追加。我们在第 3 节证明这个想法会因一个根本原因而失败。在一个校准数据集上，余弦相似度无法区分矛盾与重复——矛盾与原始事实的平均相似度*更高*（值翻转是最小编辑），而非真正的改写。没有任何阈值可以区分“这是对存储事实的重述”和“这与存储事实矛盾”。基于相似度的学习分类器在实践中也没有可靠帮助，正如我们的实验所示。机制必须是确定性和结构性的，而不是基于相似度的。  

我们提出 MemStrata，一种通过确定性替代来维护时间有效性的检索记忆。其贡献包括：  

1. 1. 基于相似度的过时检测的结构性不可能结果。在 98 个标注对上，区分矛盾与重复的余弦 AUROC 为 0.59，最大可达精度为 0.67——安全下限无法达到。矛盾事实与原始事实的嵌入相似度高于重复事实。（第 3 节、5.1 节）  
2. 2. 时间有效性记忆架构。MemStrata 像 RAG 一样存储事实（完全静态召回），但在事实的值被矛盾时应用确定性的（主体、关系、客体）替代规则，在双时态账本中淘汰过时的值，无需相似度阈值和 LLM 调用。（第 4 节）  
3. 3. 过时事实错误结果：RAG 无法避免的故障类别。当必须回答时，RAG 在四个演化基准中有 15–40% 的概率给出已被取代的值；MemStrata 将其降至约 0%。这是结构性的，而非调优问题——RAG 检索到两个值，但没有机制进行选择。（第 5.3 节）  
4. 4. 用于评估记忆在演化下的无标记评估协议。我们构建了四个演化基准测试，其中过时和当前版本的事实除变化的值外文本完全相同，因此唯一的新旧信号是记忆系统的时间机制——并且我们展示了污染性文本标记会悄然提升基线。（第 4.5 节、第 5 节）  

我们在消费级硬件上本地、确定性地运行所有实验，并明确说明限制条件：我们的演化基准是结构化的单值模板，对于更混乱的自然语言矛盾，提取质量——而非替代机制——是制约因素（第 7 节）。我们诚实地将此作为后续工作而非掩盖它。  

## 2 相关工作  

**LLM 智能体的记忆。** 近期系统为智能体提供跨会话的持久记忆：可扩展的长期记忆流水线（Mem0; Chhikara 等人，2025）、具有分页和后台处理的操作系统风格记忆层次（MemGPT/Letta; Packer 等人，2023）以及用于模拟智能体的反思性自然语言记忆（Park 等人，2023）。这些针对对话和助手设置，强调召回深度，通常以长对话记忆（LoCoMo; Maharana 等人，2024）为基准。MemStrata 在机制上不同——一个维护有效性的确定性替代规则——并且在框架上不同：我们攻击的问题不是召回深度，而是知识演化下的过时事实抵抗。  

**图与超图 RAG。** GraphRAG（Edge 等人，2024）及其后继——LightRAG（Guo 等人，2024）、NodeRAG（Xu 等人，2025）和 HyperGraphRAG（Luo 等人，2025）；参见 Han 等人（2025）的综述——在实体关系图或 n 元超边上结构化检索，改进了静态语料上的多跳检索。它们丰富了关系的*表示*，但通过相似度在该表示上检索；没有引入事实新旧概念。对我们的框架至关重要的一点是，Zeng 等人（2025）在偏差控制协议下重新评估这些系统，发现它们相对于朴素 RAG 的优势远小于原始报告——在某些情况下甚至逆转——证实仅靠表示丰富度并不能解决我们针对的失败。MemStrata 是正交的：它添加时间有效性，并在演化语料而非静态语料上评估。  

**时间知识图谱与双时态数据。** 双时态建模——区分*有效时间*（事实为真的时间）和*事务时间*（记录事实的时间）——在数据库中由来已久，由 Snodgrass 和 Ahn（1985）在分类法中形式化，发展为实际应用设计和数据管理（Snodgrass，1999；Jensen 和 Snodgrass，1999），后来在 SQL:2011 的系统版本化和应用周期表中标准化（ISO/IEC，2011）。时间知识图谱推理（三元组带有有效性区间）是一个活跃领域（Cai 等人，2024）。MemStrata 将双时态账本适配到 LLM 智能体记忆：事实被淘汰而非删除，为未来的按时间查询保留有效性区间。我们的贡献不是账本原语，而是将其与 LLM 记忆系统中确定性的提取时替代集成，以及经验性证明这解决了一个 RAG 无法解决的失败。  

**幻觉与验证。** 验证增强型 RAG 添加自我检查以减少无根据生成；Self-RAG（Asai 等人，2023）学习反思 token，决定何时检索和批评生成文本。我们包括一个 LLM 相关性验证器基线，并表明它不能解决过时问题——它没有时间信号——且延迟成本约为 8 倍。过时问题的结构正确机制是时间性和确定性的，而非学习到的接地检查。  

## 3 过时问题及相似性为何无法解决  

考虑一个智能体回答关于某个存储的问题，该存储在多个会话中累积了“服务运行在端口 8000”（更早记录）和“服务运行在端口 8080”（稍后记录，在迁移之后）。关于端口的查询会检索到两者：它们在嵌入空间中几乎相同。智能体必须判断哪个是当前的。RAG 不提供判断依据——检索按相似度排序，两者都与查询最大相似。诱人的修复方法是在写入时检测第二个事实*矛盾*第一个，然后更新而非追加。这需要区分传入事实与存储事实之间的三种关系：重复（重述）、矛盾（取代）或新颖。如果相似度能区分重复与矛盾，一个阈值规则就足够了。但它不能。第 5.1 节报告了校准结果：矛盾事实与原始事实的平均余弦相似度*更高*于重复事实，因为值翻转（“8000”→ “8080”）比同一事实的真实改写编辑距离更小。分布重叠如此严重，以至于在任何阈值下可达到的最大精度为 0.67，远低于安全自动更新规则所需。基于相似度特征的学些分类器在实践中也无法拯救（我们的 v6 和 v6_no_verify 条件，第 5 节）：门控判断的矛盾调用不可靠，在放弃状态下，它们有 25–60% 的概率*泄露*过时事实。结论是：过时检测必须是*结构性的*：如果传入事实和存储事实共享（主体、关系）键但断言不同的客体，则较新的取代较旧的——无论它们的嵌入有多相似。这是 MemStrata 实现的机制。  

## 4 MemStrata 架构  

MemStrata 是智能体与其语言模型之间的本地记忆层。它维护一个从交互中提取的事实存储，并为每个查询组成一个 token 预算有限的上下文块。我们描述在此评估的组件。  

### 4.1 写入路径：通过惊异门控的确定性替代  

每个传入轮次产生一个候选事实。写入路径进行路由：  

1. 1. 精确重复短路。标准化文本哈希以零成本丢弃逐字重复。  
2. 2. 确定性断言路径。如果轮次表达了一个干净的三元组（主体、关系、客体）——其中客体是单个可变值——MemStrata 标准化（主体、关系）键，并检查是否存在该键的活动断言。如果存在且具有*不同*的客体，新断言*取代*它：旧行的有效性区间关闭（valid_to 设置，superseded_by 链接），新行打开。相同客体 → 重复（强化）。无先前键 → 新颖（存储）。无余弦，无 LLM 判断。  
3. 3. 文本门控回退。非三元组散文通过惊异门控，使用相似度加 LLM 判断进行分类。关键的是（见第 4.3 节），此回退保留非矛盾的近似重复作为*不同*事实；它只丢弃精确重复。  

### 4.2 双时态账本  

事实被淘汰而非删除。存储记录 valid_from、valid_to 和 superseded_by，因此被取代的事实仍然可用于未来的按时间查询（我们构建此能力但在此不评估；第 7 节）。活动检索仅显示当前有效的行。  

### 4.3 “保留，然后取代”的设计  

时间层的一个早期变体激进压缩，在写入时合并近似重复事实以限制增长。干净的评估显示这*在静态召回上退步到 RAG 以下*：合并丢弃了回答后续问题所需的细节（temporal_v6_lossy 消融，第 5 节，在项目事实 QA 上降至 0.62，对话召回上降至 0.13）。因此发布的配置*像 RAG 一样保留*——存储不同的非矛盾事实——并仅在*关键的轴*上通过取代矛盾来限制增长。这一设计选择使系统在静态知识上与 RAG 持平，同时在演化知识上占据主导。我们将有损变体报告为消融，正是因为它孤立了这一决策。  

### 4.4 读取路径

检索记忆中的时间有效性：消除AI代理在知识演化中的过时事实错误

相似文章

STALE：LLM智能体能否识别记忆何时失效？

从回想到遗忘：为个性化智能体评估长期记忆

有没有其他人的智能代理会自信地“记住”已经变化的内容？

学习检索：面向文本到SQL智能体的双层长期记忆

H-Mem：一种通过混合结构实现智能体记忆演化与检索的新型记忆机制

提交意见反馈