ConvMemory v2: 一种保持召回率的对话记忆检索Top-10证据重排序器

arXiv cs.CL 2026/06/10 04:00 论文

conversational-memory reranker retrieval recall-preserving fine-tuning cross-encoder benchmark

摘要

ConvMemory v2是一种保持召回率的重排序器，它利用微调后的交叉编码器对ConvMemory v1的前10个候选结果进行重新排序，在LoCoMo基准测试中提升了MRR指标，同时保持召回率不变。

arXiv:2606.10842v1 公告类型: 新论文摘要: 我们描述了ConvMemory v2，这是一个可选的令牌证据重排序器，位于轻量级ConvMemory v1重排序器之后，仅对v1保护的前10个候选集进行重新排序。v2是一个微调后的ms-marco-MiniLM-L-6-v2交叉编码器（参数数量22,713,601，根据发布的检查点测量），应用于v1已经选出的十个（查询，记忆）候选对；它不会改变返回的记忆集合，因此Recall@10和Hit@10与v1在构造上保持一致，而非统计巧合。在LoCoMo对话记忆基准测试中（5个随机种子，n = 4955个测试行），v2将FULL MRR从v1的0.5824提升至0.6560（配对自助法+0.0734，95%置信区间[+0.0645, +0.0827]），H@1从0.4440提升至0.5474。v2几乎弥补了与更昂贵的全池交叉编码器参考（mxbai-rerank-large-v1在前500个候选上的MRR为0.6688）之间的差距：在FULL MRR上，v2比mxbai_top500低0.013，但在两个raw-dense-hard切片（v1保护的前10个候选的召回率高于mxbai自身的前10个）上，v2超过了mxbai_top500。一项四组负载消融实验表明，候选特定的记忆文本是其机制：去除、打乱或替换该文本会导致MRR低于原始密集检索的结果。最好将v2理解为一种标准保持召回率的级联模式，结合了LoCoMo特定的微调、显式的反捷径推理约束以及严谨的负载分析；其相对于mxbai的优势是切片特定的，而非普遍优势声明。本报告是对v1技术报告（arXiv:2605.28062）的扩展。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:12

# 一种保持召回的Top-10证据重排序器用于对话记忆检索
来源：https://arxiv.org/html/2606.10842
Taiheng Pan 计算与信息系统学院 墨尔本大学 github\.com/pth2002

###### 摘要

我们描述 ConvMemory v2，一个可选的 token 证据重排序器，它位于轻量级 ConvMemory v1 重排序器之后，仅对 v1 保护的前 10 候选集进行重新排序。v2 是一个微调后的 ms-marco-MiniLM-L-6-v2 交叉编码器（22,713,601 个参数，从发布的检查点测量得到），应用于 v1 已选出的十个 (查询, 记忆) 对；它不会改变返回的十个记忆，因此 Recall@10 和 Hit@10 在结构上而非统计巧合上与 v1 一致。在 LoCoMo 对话记忆基准测试上（5 个种子，n=4955 测试行），v2 将 FULL MRR 从 v1 的 0.5824 提升至 0.6560（配对自举法 +0.0734，95% 置信区间 [+0.0645, +0.0827]），H@1 从 0.4440 提升至 0.5474。v2 缩小了大部分（但并非全部）与更昂贵的全池交叉编码器参考（mxbai-rerank-large-v1 在 top-500 上，MRR 0.6688）之间的差距：在 FULL MRR 上，v2 比 mxbai_top500 低 0.013，但在两个 raw-dense-hard 切片上（v1 保护的前 10 的召回率高于 mxbai 自身的前 10），v2 超过了 mxbai_top500。一个四臂负载消融实验表明，候选特定的记忆文本是机制所在：移除、打乱或替换它会使 MRR 下降到低于原始密集检索的水平。v2 最好被理解为一种标准的保持召回级联模式，结合了 LoCoMo 特定的微调、显式的反捷径推理合约以及严谨的负载分析；其对 mxbai 的优势是切片特定的，而非总体优势主张。本报告扩展了 v1 技术报告[1 (https://arxiv.org/html/2606.10842#bib.bib1)]。

###### 目录

1. 1 引言 (https://arxiv.org/html/2606.10842#S1)
2. 2 与 v1 论文的关系 (https://arxiv.org/html/2606.10842#S2)
3. 3 相关工作 (https://arxiv.org/html/2606.10842#S3)
4. 4 ConvMemory v2 架构 (https://arxiv.org/html/2606.10842#S4) 1. 4.1 保持召回的级联 (https://arxiv.org/html/2606.10842#S4.SS1) 2. 4.2 评分模型与参数数量 (https://arxiv.org/html/2606.10842#S4.SS2) 3. 4.3 推理提示格式 (https://arxiv.org/html/2606.10842#S4.SS3) 4. 4.4 推理过程 (https://arxiv.org/html/2606.10842#S4.SS4)
5. 5 训练 (https://arxiv.org/html/2606.10842#S5) 1. 5.1 目标 (https://arxiv.org/html/2606.10842#S5.SS1) 2. 5.2 超参数与数据划分 (https://arxiv.org/html/2606.10842#S5.SS2) 3. 5.3 训练来源与发布检查点溯源 (https://arxiv.org/html/2606.10842#S5.SS3)
6. 6 实验协议 (https://arxiv.org/html/2606.10842#S6)
7. 7 推理隔离与捷径控制 (https://arxiv.org/html/2606.10842#S7)
8. 8 主要结果 (https://arxiv.org/html/2606.10842#S8) 1. 8.1 总体 (FULL) 与切片结果 (https://arxiv.org/html/2606.10842#S8.SS1) 2. 8.2 困难切片：v2 超过全池参考的区域 (https://arxiv.org/html/2606.10842#S8.SS2) 3. 8.3 Top-10 重排序的上限 (https://arxiv.org/html/2606.10842#S8.SS3)
9. 9 负载消融实验 (https://arxiv.org/html/2606.10842#S9) 1. 9.1 两个 v2 数值 (0.6560 vs 0.6677) (https://arxiv.org/html/2606.10842#S9.SS1)
10. 10 成本 (https://arxiv.org/html/2606.10842#S10)
11. 11 局限性 (https://arxiv.org/html/2606.10842#S11)
12. 12 可复现性 (https://arxiv.org/html/2606.10842#S12)
13. 13 讨论与未来工作 (https://arxiv.org/html/2606.10842#S13)
14. A 完整延迟协议 (https://arxiv.org/html/2606.10842#A1)
15. B 发布检查点溯源 (https://arxiv.org/html/2606.10842#A2)
16. C 事实核对清单 (https://arxiv.org/html/2606.10842#A3)
17. 参考文献 (https://arxiv.org/html/2606.10842#bib)

## 1 引言

v1 ConvMemory 技术报告[1 (https://arxiv.org/html/2606.10842#bib.bib1)] 探讨了小型学习型重排序器能在多大程度上以低成本近似交叉编码器在对话长期记忆检索中的质量。其默认重排序器刻意避免为每个查询和候选在候选池上运行逐对的 transformer 前向传播（v1 第 3.4 节）；它廉价地组织了一个高召回率的 top-500 候选池。一个自然的后续问题是：一旦 v1 已将候选池缩小到一个小的、高召回率的前缀，能否在这个前缀上投入少量、有界 token 级别的交叉编码器计算，从而在不牺牲召回率且成本远低于全池交叉编码器的情况下改善排序？

本报告通过 ConvMemory v2（一种保持召回的 top-10 证据重排序器）回答了这个问题。v2 精确地接收 v1 返回的 top-10 集合，使用一个微调后的 ms-marco-MiniLM-L-6-v2 交叉编码器对这十个 (查询, 记忆) 文本对进行评分，按该分数对这十个候选项重新排序，并附加 v1 未变化的后续部分。由于 top-10 *集合*被保留，Recall@10 和 Hit@10 在结构上保持不变。

我们做出三项贡献。

1. 1. ConvMemory v2：一个可选的、保持召回的 top-10 证据重排序器，以发布检查点的形式分布在 Hugging Face Hub 上。其价值在于成本-质量前沿上的一个新点：在 LoCoMo 上，它恢复了 v1 之上大部分 MRR 和 H@1 的提升空间，延迟约为 v1 的 1.7 倍，同时在我们的测量中仍比全池交叉编码器便宜约 68 倍。在 FULL MRR 上，v2 仍低于 mxbai-rerank-large-v1；其对全池参考的优势是切片特定的（第 8 节 (https://arxiv.org/html/2606.10842#S8)）。
2. 2. 一个机制层面的消融实验：一个四臂、5 种子的 token 证据消融实验表明，候选特定的记忆文本是 v2 增益的驱动因素。移除记忆文本、在问题内打乱它或用其他问题的文本替换它，不仅会消除增益——还会使 MRR 降至低于原始密集检索的水平，这是 token 与记忆文本对齐具有承重作用的最清晰证据。
3. 3. 一个显式的反捷径推理合约：发布的推理 API 拒绝一组固定的金标准定义字段和教师衍生字段，并且训练/测试对话是不相交的。这由机器可检查的测试支持，而不仅仅是文字描述。

v2 建立在一种保持召回的级联之上，这是一种已建立的检索模式；其贡献在于 LoCoMo 特定的微调、保持召回的架构设计、承重分析以及反捷径推理合约。此处报告的所有结果均基于 LoCoMo 检索阶段。

## 2 与 v1 论文的关系

由于 v2 是与 v1 组合使用而非取代它，并且 v1 报告提出了一个具体的结构成本主张和一个具体的负面归因结果，因此我们在描述 v2 之前先明确二者关系。本节扩展了公开 v2 文档中的“与 v1 论文的关系”说明。¹¹¹https://github.com/pth2002/ConvMemory/blob/main/docs/EVIDENCE_RERANKER.md

#### v1 第 3.4 节（“无逐对 transformer 前向传播”结构主张）。

v1 的核心成本论点是，其默认路径不会为候选池中的每个查询-候选对运行 transformer 前向传播。单独的 v1 仍然遵守这一点：`retrieve(query, memories)` 使用纯 v1 路径，除非明确请求 v2。v2 仅在受保护的 top-10 上放宽了这一主张：每个查询对十个查询-记忆对（每个受保护候选一个对）进行评分，而不是 500 个。因此 v1 和 v1+v2 是同一成本-质量前沿上的两个点，是互补点而非替代品。

#### v1 第 3.3 节（教师选择规范）。

v1 刻意未使用最强的可用交叉编码器 (mxbai-rerank-large-v1) 作为其蒸馏教师，以避免混淆蒸馏增益与教师选择。v2 的主要分支保持了这一规范：它使用仅包含金标准的列表式目标进行训练（教师权重 0.0；第 5 节 (https://arxiv.org/html/2606.10842#S5)）。存在一个交叉编码器教师变体，但它不是主要分支且不承担主要负载（第 8 节 (https://arxiv.org/html/2606.10842#S8)）。

#### v1 第 5 节（时间窗口不承重）。

v1 发布了一个负面结果：其学习得到的时间窗口在全局上具有统计显著性，但在时间上并不具体。v2 支持的机制与时间窗口不同，并进行了单独测试（第 9 节 (https://arxiv.org/html/2606.10842#S9)）：候选特定的记忆文本是承重的。v1 的负面结果保持不变。

#### v1 第 7 节（从头开始的流式重排序器在没有教师信号时失败）。

v1 第 7 节表明，使用仅检索监督训练的小型从头开始流式重排序器会在真实 LoCoMo 上失败。v2 占据了 v1 第 7 节留下的互补区域：它使用预训练的交叉编码器骨干网络和受监督的（金标准列表式）微调，而非从头开始的架构。v2 表明 v1 第 7 节中缺失的成分是受监督/预训练的信号源，而非级联思想本身。

#### v1 第 10 节（顶部的 CCGE-LA 未能匹配 mxbai）。

v1 报告称，即使使用 CCGE-LA 编辑器，绝对的 LoCoMo MRR 仍远低于 mxbai。v2 缩小了这一差距：单独的 v1 仍然输给 mxbai_top500（MRR 0.5824 vs 0.6688）；v2 弥合了 v1 与 mxbai_top500 之间约 85% 的 FULL-MRR 差距（0.6560 vs 0.6688），而 mxbai_top500 在 FULL 上仍保持领先。然而在两个 raw-dense-hard 切片上，v2 *超过了* mxbai_top500（第 8 节 (https://arxiv.org/html/2606.10842#S8)）。v2 和 CCGE-LA 是两个独立、可选的扩展；v2 既不包含也不取代 CCGE-LA。

#### v1 第 11 节（三个未来工作方向）。

v1 列出了多骨干网络检查点分发、端到端智能体基准测试以及更广泛的 CCGE-LA 训练作为未来工作。v2 解决了一个独立的方向；所有三个 v1 的未来工作项仍然开放。

表 1 (https://arxiv.org/html/2606.10842#S2.T1) 总结了这些关系。

表 1：ConvMemory v2 如何与 v1 报告中的具体结果相关联。v2 是与 v1 组合使用而非取代 v1，并且不会复活或重新审视 v1 的负面归因结果。

## 3 相关工作

我们将相关工作保持集中在直接决定 v2 设计、评估设置和主张边界的组成部分上。

ConvMemory v2 以交叉编码器/ms-marco-MiniLM-L-6-v2 交叉编码器²²²https://huggingface.co/cross-encoder/ms-marco-MiniLM-L-6-v2 作为其评分骨干网络，与 v1 用作蒸馏教师的家族相同。作为高成本全池参考点，我们使用 mxbai-rerank-large-v1³³³https://huggingface.co/mixedbread-ai/mxbai-rerank-large-v1 在密集 top-500 上应用。基础 ConvMemory v1 重排序器使用 MPNet 句子编码器[3 (https://arxiv.org/html/2606.10842#bib.bib3)]，并在 v1 报告[1 (https://arxiv.org/html/2606.10842#bib.bib1)] 中描述。所有评估均在 LoCoMo 对话记忆基准测试[2 (https://arxiv.org/html/2606.10842#bib.bib2)] 上进行。在候选前缀上进行交叉编码器重排序，以及在不改变召回率的情况下对受保护集进行重排序的保持召回级联，是 v2 为对话记忆检索组合使用的标准检索模式。

## 4 ConvMemory v2 架构

### 4.1 保持召回的级联

v2 是级联的最后阶段，其早期阶段与 v1 保持不变：

``
查询 + 记忆
    --> 密集 MPNet 候选生成
    --> 在 top-500 池上的 ConvMemory v1 重排序
    --> 保留精确的 v1 top-10 集合            <-- 召回在此冻结
    --> v2 交叉编码器仅对这 10 个进行重排序
    --> 附加 v1 未变化的后续部分（排名 11..N）
``

图 1 (https://arxiv.org/html/2606.10842#S4.F1) 以完整细节展示了相同的级联，包括受保护 top-10 的逐对评分以及重排序后的集合如何与未变化的后续部分重新组合。

参见图注 图 1：完整的保持召回级联。ConvMemory v1 对密集 top-500 进行重排序；v2 仅对受保护的 v1 top-10 进行重排序（每个受保护候选进行一次对评分），并附加 v1 未变化的后续部分。由于 top-10 集合被保留，Recall@10 和 Hit@10 在结构上等于 v1 的值。部署规则是：获取 v1 的 top-10 集合，用 v2 交叉编码器对十个 (查询, 记忆) 文本对进行评分，按 v2 分数对这十个进行排序，并将排名第 11 及之后的所有内容完全保留为 v1 的排序。由于 top-10 *集合*从未改变，Recall@10 和 Hit@10 精确等于 v1 的值——这是一个构造性的（设计上的）属性，而非统计上的近似相等。发布的检查点及其来源在第 5 节 (https://arxiv.org/html/2606.10842#S5) 中描述；限制 v2 在推理时可能读取内容的隔离合约在第 7 节 (https://arxiv.org/html/2606.10842#S7) 中描述。

### 4.2 评分模型与参数数量

v2 模块是一个微调后的 ms-marco-MiniLM-L-6-v2 交叉编码器。根据发布的检查点测量，其参数数量恰好为 22,713,601 个（在需要整数时我们写作“约 22.7M”，但测量值为 22,713,601）。作为对比，轻量级 v1 重排序器约有 3.6M 参数，并且每个查询执行零次交叉编码器对评分；v2 增加了一个第二个、更重的阶段，每个查询在受保护前缀上执行十次交叉编码器对评分。本报告中的每项成本陈述都区分了这两种模式（第 10 节 (https://arxiv.org/html/2606.10842#S10)）。

### 4.3 推理提示格式

每个候选使用一个带时间注释的格式作为 (查询侧, 记忆侧) 文本对进行评分。设候选位置为 \{p_i\}，max_pos = max_i p_i，查询侧渲染为

> QUERY_TIME: \{max_pos:.0f\}. \{query}

每个候选侧渲染为

> MEMORY_TIME: \{pos:.0f\}. \{text}

位置元数据是可选的；当存在时，它是 v2 看到的唯一时间信号，而负载消融实验（第 9 节 (https://arxiv.org/html/2606.10842#S9)）表明它并非驱动增益的因素——候选特定的记忆文本才是。

### 4.4 推理过程

算法 1 (https://arxiv.org/html/2606.10842#alg1) 描述了完整的 v2 推理路径。关键不变性在最后一行：返回的 top-10 *集合* 等于 v1 的集合，因此 Recall@10 和 Hit@10 在结构上得以保留。

算法 1 ConvMemory v2 推理（保持召回的 top-10 重排序）
1: 查询 q; 记忆存储 M; 基础 ConvMemory v1; 附加证据重排序器 R
2: 排名记忆列表 L
3: C ← 在 M 上进行密集向量搜索，取密集 top-500
4: L ← ConvMemory v1 对 C 的重排序 ▷ v1 路径；无逐对交叉编码器评分
5: P ← L 的前 10 个 ▷ 受保护 top-10 集合（包含）
6: T ← L 中前 10 项之后的剩余部分 ▷ 未变化的后续部分
7: p_i ← position(m_i) 对于每个 m_i ∈ P
8: max_pos ← max_{m_i ∈ P} p_i
9: for each m_i ∈ P do
10:    q_i ← "QUERY_TIME: {max_pos}. " + q
11:    d_i ← "MEMORY_TIME: {p_i}. " + text(m_i)
12:    s_i ← R.score(q_i, d_i) ▷ 一次对评分
13: end for
14: P' ← 按 s_i 降序排序 P
15: 返回 P' ∥ T

不变性：set(P') = set(P)，因此 Recall@10 和 Hit@10 在结构上等于 v1 的值。重排序器每个查询精确执行 |P| = 10 次对评分，从不执行 |C| = 500 次。

## 5 训练

### 5.1 目标

v2 使用列表式 gold-only 目标进行训练

ConvMemory v2: 一种保持召回率的对话记忆检索Top-10证据重排序器

相似文章

Cognis：面向对话式 AI 智能体的上下文感知记忆系统

无需训练的词汇-密集融合用于会话记忆检索

MemReranker：面向智能体记忆检索的推理感知重排序

基于局部注意力的检索：在LongMemEval、LoCoMo和代码搜索基准上达到SOTA结果

EviMem: 证据差距驱动的迭代检索用于长期对话记忆

提交意见反馈