ConvMemory v3:通过目标条件关系验证的对话记忆有效性上下文层
摘要
ConvMemory v3 引入了一个有效性上下文层,通过目标条件双证据门检测过时或被取代的对话记忆,在合成基准上实现了高准确率,并零样本迁移到角色绑定任务。
arXiv:2606.26753v1 公告类型:新
摘要:对话记忆检索优化了相关性,但检索到的记忆可能相关且同时过时:后续轮次会更新、纠正或取代它。ConvMemory v3 增加了一个有效性上下文层,通过目标条件关系验证来检测并呈现这种更新证据,位于 v1/v2 检索路径之后。其核心机制是一个双证据门,通过对特定目标命题进行关系判断,通过 MiniLM 槽头和 DeBERTa-v3 槽头的乘积对(目标,来源)对进行评分,并通过保守的事件/操作证据进行门控。在一个合成多跳有效性基准上,该门达到了 90.12% ± 1.73 的准确率;通过一个真实数据反馈循环挖掘失败模式(但仅在合成对上训练),验证器零样本迁移到 Memora 角色绑定(无目标侧标签),达到了 98.8% ± 0.9 的组全正确。部署的层默认保留检索:上下文模式附加结构化的有效性元数据,同时保持候选集和排序顺序不变;查询条件降级模式是密集当前状态工作负载的显式选择加入,它将当前活跃 H@1 从不降级基线的 45.1% 提升至 95.7% ± 1.2,同时保护非取代记忆的召回率达 99.4%。六个机器可验证的安全契约固定了该层的行为。多跳图传播被验证为一种机制;严格前置边的全自动构建被定性为一个边界,因为严格必要性需要反事实世界知识。本报告扩展了 ConvMemory v1(arXiv:2605.28062)和 v2(arXiv:2606.10842)。
查看缓存全文
缓存时间: 2026/06/26 05:19
# 面向对话记忆的时效性上下文层:基于目标条件的关系验证
来源:https://arxiv.org/html/2606.26753
作者:Taiheng Pan,墨尔本大学计算与信息系统学院,github.com/pth2002
(2026年6月)
###### 摘要
对话记忆检索追求相关性,但检索到的记忆可能相关却已过时:后续的对话轮次可能会更新、更正或取代该记忆。ConvMemory v3 增加了一个*时效性上下文层*,通过目标条件关系检测并呈现这种更新证据,置于 v1/v2 检索路径之后。其核心机制是一个双证据门控,它将关系判断条件化为特定的目标命题,通过 MiniLM 槽头与 DeBERTa-v3 槽头的乘积对(目标,来源)对进行评分,并采用保守的事件/操作证据进行门控。在合成多跳时效性基准上,该门控准确率达 90.12%±1.73;通过一个真实数据反馈循环(挖掘失败模式但仅在合成对上训练),验证器可迁移至 Memora 角色绑定任务(零目标侧标签),达到 98.8%±0.9 的组全正确率。部署的层默认保留检索结果:`context` 模式附加结构化时效性元数据,同时保持候选集和排序固定;查询条件化的 `demote` 模式是针对密集当前状态工作负载的显式选择,在该模式下,当前活跃记录的首位命中率(H@1)从不降级基线的 45.1% 提升至 95.7%±1.2,同时保护非被取代记忆的召回率达 99.4%。六个机器可验证的安全契约约束了该层的行为。多跳图传播被验证为一种机制;严格先决边的全自动构建被界定为边界,因为严格必要性需要反事实世界知识。本报告扩展了 ConvMemory v1[1] 和 v2[2]。
###### 目录
1. 1. 引言
2. 2. 与 v1 和 v2 报告的关系
3. 3. 相关工作
4. 4. 时效性问题
5. 5. 目标条件双证据门控
1. 5.1 槽头
2. 5.2 保守事件/操作门控
3. 5.3 通过噪声或进行聚合
4. 5.4 一个工作示例
5. 5.5 架构冻结:头部合并与承重骨干
6. 6. 训练验证器
1. 6.1 目标
2. 6.2 分层监督
3. 6.3 真实数据反馈循环
4. 6.4 部署的查询条件化校准器
7. 7. 实验协议
8. 8. 验证器进展
9. 9. 角色绑定验证
10. 10. 多跳时效性传播
11. 11. 密集检索中的时效性上下文层
12. 12. LoCoMo 密度审计
13. 13. 成本感知路由
14. 14. 部署:模式、契约与成本
1. 14.1 模式
2. 14.2 安全契约
3. 14.3 成本与配置
4. 14.4 发布检查点数据
15. 15. 边界发现
16. 16. 可复现性
17. 17. 讨论
1. 17.1 局限性
2. 17.2 未来工作
18. A. 真值来源检查表
19. B. 发布检查点来源
20. 参考文献
## 1. 引言
一个对话代理会在多次会话中积累记忆,而对该存储的查询不仅问“哪个记忆相关”,更越来越多地问“哪个记忆仍然为真”。一个更换工作、搬家或修改偏好的用户会留下一串痕迹:早期的记忆保持主题相关,而晚期的记忆取代了它。ConvMemory v1[1] 和 v2[2] 都优化了相关性:v1 通过轻量级学习重排序器组织高召回率的前 500 池,v2 增加了保留召回率的前 10 证据重排序器,改进了保护集内的排序。这两层都不推理相关记忆是否已被推翻。
ConvMemory v3 将此推理添加为*时效性上下文层*。该层在 v1/v2 检索路径之后运行,并对每个检索到的记忆回答一个不同的问题:相对于查询所关注的具体目标,后续的记忆是否更新、更正或取代了该记忆?答案作为结构化时效性元数据附加,代理决定如何使用。默认情况下,`context` 模式保留候选集和排序顺序,同时用时效性元数据扩展结果模式;v1/v2 的检索输出保持不变,`off`/`None` 模式在字节级别与未构建 v3 相同。
技术核心是*目标条件关系验证器*。忽略目标的关系判断在关键情况下失效:关于同一个人的两个记忆可能在一个属性上构成更新关系,而在另一个属性上毫无关系;只有固定的目标命题才使关系得到良好定义。v3 通过双证据门控将判断条件化于目标:将 MiniLM 槽得分乘以 DeBERTa-v3 槽得分,乘积通过保守的事件/操作证据门控,并通过噪声或传播结果到来源。一个分层监督的反馈循环从真实角色绑定困难案例中学习,并以零目标侧标签迁移回来。
我们做出三个贡献。
1. **目标条件双证据门控(机制)**:一个槽乘积验证器,带有保守事件/操作门控,在合成多跳时效性基准上达到 90.12%±1.73 的准确率,并通过真实数据反馈循环迁移到 Memora 角色绑定任务,达到 98.8%±0.9 的组全正确率,零目标侧标签。这远高于目标位置规则(78.6%)、零样本自然语言推理(64.2%)和相关性交叉编码器(17.9%)。
2. **时效性上下文层(系统)**:一个可选的阶段,通过一个 `validity_mode` 参数暴露四个接受值(`None`, `off`, `context`, `demote`),对应三种行为模式。默认的 `context` 模式保留候选集和排序顺序,同时附加时效性证据;`demote` 模式是显式选择,针对密集当前状态工作负载重新排序,在 Memora 密集检索上将当前活跃记录的首位命中率从 45.1% 提升至 95.7%±1.2,同时保护非被取代记忆的召回率达 99.4%。六个机器可验证的安全契约约束了该层的行为,并有 41 个通过测试支持。
3. **两个边界发现(范围)**:多跳图传播被验证为具有给定结构的有效机制;就我们所知,针对自由形式多跳对话的目标条件关系标签稀缺,且严格先决边的全自动构建需要反事实必要性判断,这是判别模型无法可靠提供的。两者均在 §15 中精确刻画。
v3 直接构建在 ConvMemory 级联之上:v1 提供候选池,v2 提供受保护的排序,v3 提供时效性上下文。两个模型承担不同的角色,报告全文保持它们分离。双证据验证器证明了目标条件关系验证的有效性,并为机制提供了合成和角色绑定证据。部署的降级校准器是发布包中运行的查询条件化模型,产生了密集检索中 95.7% 的当前活跃记录首位命中率。验证器、其训练、传播机制以及部署的校准器依次描述,每个均附有建立它们的实验。
## 2. 与 v1 和 v2 报告的关系
ConvMemory v1[1] 引入了轻量级学习记忆重排序器、关于学习时间窗口的负归因结果以及研究预览版冲突编辑器。ConvMemory v2[2] 引入了保留召回率的前 10 证据重排序器,仅对 v1 的保护前 10 重新排序,并改进了 MRR 和首位命中率,同时通过构造保持召回率@10 不变。v3 与两者组合而非替换。
#### v1(冲突编辑器研究预览)
v1 发布了研究预览版冲突编辑器,并将冲突建模列为开放问题。v3 是该方向的成熟后续:不是原地编辑冲突记忆,而是验证目标记忆与后续来源之间的关系,并将结果作为时效性上下文呈现。v3 验证器是目标条件的且经过监督训练,而 v1 预览两者皆非。
#### v2(保留召回率的级联)
v2 对 v1 的保护前 10 重新排序,并保持召回率固定。v3 附加在该级联之后。在默认的 `context` 模式下,v3 保留 v1/v2 产生的任何排序,仅添加时效性元数据,因此 v1+v2+v3 部署保留 v2 的确切检索行为。`demote` 选择是 v3 重新排序的唯一模式,且仅适用于密集当前状态工作负载(§11)。
#### 时间窗口负结果
v1 报告学习的时间窗口在总体上统计显著,但缺乏时间特异性;v2 未提出时间机制断言。v3 的机制是基于记忆文本的目标条件关系验证,区别于时间窗口:时效性信号来自两个记忆关于共享目标的断言,而非它们的时间位置。v1 的负结果保持不变。
## 3. 相关工作
v3 位于三条研究线的交汇处,其贡献在与每条对比时最为清晰。
#### 代理记忆系统
越来越多的系统为对话代理提供持久记忆。例如 MemGPT[11]、Generative Agents[12]、MemoryBank[13] 和 Mem0[14] 等系统将摘要或事实写入存储、索引,并在后续查询需要历史时按相关性检索。它们的目标是覆盖率和召回率,确保正确的记忆能被再次找到。v3 是正交且互补的:它不改变存储内容或检索方式,而是增加一层,判断检索到的记忆是否已被后续记忆(相对于查询所问的目标)所取代。存储和检索回答“能否找到这个记忆”;时效性层回答“这个记忆是否仍然为真”。长期对话记忆基准,如 LoCoMo[16] 和 LongMemEval[17],大多将任务定义为从过去会话中检索事实;Memora[15] 最接近 v3,突出记忆突变和过时问题,这正是时效性层所针对的范围。
#### 知识编辑
知识编辑方法如 ROME[9] 和 MEMIT[10] 通过编辑模型权重来更新模型所知,使模型本身不再断言过时事实。v3 保持模型权重不变,而操作检索上下文:它注释或重新排序下游模型将读取的检索记忆。编辑改变模型;时效性层改变提供给模型的证据,这保持了原始记忆的可审计性和层的可移除性。
#### 自然语言推理与事实验证
NLI 和事实验证模型,使用如 FEVER[8] 等数据集训练,判断一个句子是否蕴含、矛盾或支持另一个句子。v3 为其中一个槽头使用 NLI 骨干,但任务不同:事实验证问两个句子在孤立情况下是否一致,而时效性层问来源是否推翻了目标*关于特定命题*。忽略目标的句子级矛盾信号会将雇主更新与无关的家乡陈述混淆;目标条件槽乘积正是查询无感知的 NLI 判断所缺乏的(§11)。
v3 构建的组件是具体的。验证器使用两个槽头:一个 MiniLM 交叉编码器[4]¹⁾(v1 用作蒸馏教师、v2 用作证据评分器的同一家族,在 MS MARCO 段落排序上微调[7,6]),以及一个 DeBERTa-v3 骨干[5]²⁾(从 NLI 检查点初始化,并使用二元分类头微调)。v3 下方的检索路径是 ConvMemory v1 重排序器,基于密集 MPNet[3] 前 500 池,可选择后接 v2 证据重排序器。评估使用三种设置:为本工作构建的合成多跳时效性基准、Memora 角色绑定迁移设置以及 Memora 密集当前状态检索。保留召回率级联和保护前 10 在 v1 和 v2 报告中定义[1,2];v3 将其视为注释的固定基板。
## 4. 时效性问题
#### 相关性不等于时效性
给定一个关于目标实体的查询和一个累积的记忆存储,检索器按相关性对记忆排序。一个记忆可能相关性排名很高,但已经过时:用户已更新该事实。时效性问题正交:在相关记忆中,哪些已被后续来源记忆(相对于查询所问的目标)所取代。
#### 关系是目标条件的
两个记忆之间的关系只有在目标命题固定后才被良好定义。关于同一个人的两句话可能在一个属性(雇主)上构成更新关系,而在另一个属性(家乡)上毫无关系。一个忽略目标的关系判断相似文章
ConvMemory v2: 一种保持召回率的对话记忆检索Top-10证据重排序器
ConvMemory v2是一种保持召回率的重排序器,它利用微调后的交叉编码器对ConvMemory v1的前10个候选结果进行重新排序,在LoCoMo基准测试中提升了MRR指标,同时保持召回率不变。
Cognis:面向对话式 AI 智能体的上下文感知记忆系统
Lyzr Cognis 推出统一开源记忆系统,融合 BM25 与 Matryoshka 向量搜索并支持版本感知写入,在 LoCoMo 与 LongMemEval 基准上实现 SOTA。
EviMem: 证据差距驱动的迭代检索用于长期对话记忆
EviMem结合了用于证据差距检测的IRIS和用于分层记忆的LaceMem,以改进长期对话记忆检索,在时间和多跳问题上实现了更高准确率和更低延迟。
决策感知记忆卡:面向工具使用LLM代理的反事实启发式上下文选择与压缩
介绍了CICL,一种决策感知上下文层,通过将上下文视为决策时刻的干预,使用反事实启发式评分和类型化记忆卡(受令牌预算限制),为工具使用的LLM代理选择和压缩证据。在SWE-bench和RepoBench上的实验显示,在检索准确性和行动关键性方面取得了实际提升。
MemTrain:自监督上下文记忆训练
MemTrain 提出了一种自监督训练框架,通过在维基百科语料上使用掩码重建和中间记忆召回代理任务,增强 LLM 智能体的上下文记忆能力,在下游记忆密集型 QA 基准上取得了高达 17.67 个百分点的提升。