MemReranker:面向智能体记忆检索的推理感知重排序
摘要
MemReranker 是一个针对智能体记忆检索设计的推理感知重排序模型家族(0.6B/4B),通过结合 LLM 知识蒸馏技术解决语义相似性匹配的局限性,从而提升模型的时间与因果推理能力。
arXiv:2605.06132v1 发布类型:新论文
摘要:在智能体记忆系统中,重排序模型是连接用户查询与长期记忆的关键桥梁。大多数系统采用“先检索后重排序”的两阶段范式,但通用的重排序模型依赖于语义相似度匹配,缺乏真正的推理能力,导致召回的结果虽然在语义上高度相关,却未包含回答问题的关键信息。这一缺陷在记忆场景中表现为三个具体问题。首先,相关性评分校准不佳,使得基于阈值的过滤难以实施。其次,在面对时间约束、因果推理等复杂查询时,排名效果下降。第三,模型无法利用对话上下文进行语义消歧。本报告介绍了 MemReranker,这是一个基于 Qwen3-Reranker 并通过多阶段 LLM 知识蒸馏构建的重排序模型家族(0.6B/4B)。多教师成对比较生成了校准后的软标签,二元交叉熵(BCE)逐点蒸馏建立了分布良好的评分,而 InfoNCE 对比学习则增强了对困难样本的区分能力。训练数据结合了通用语料与涵盖时间约束、因果推理及指代消解的记忆特定多轮对话数据。在记忆检索基准测试中,MemReranker-0.6B 在关键指标上显著优于 BGE-Reranker,并追平开源的 4B/8B 模型以及 GPT-4o-mini。MemReranker-4B 进一步实现了 0.737 的 MAP 得分,多项指标与 Gemini-3-Flash 相当,同时将推理延迟控制在大型模型的 10--20%。在金融和医疗垂直领域基准测试中,该模型保持了与主流大参数重排序器相当的泛化能力。
查看缓存全文
缓存时间: 2026/05/08 07:14
# 面向智能体记忆检索的推理感知重排序 来源: https://arxiv.org/html/2605.06132 1 MemTensor (Shanghai) Technology 2 中国电信研究院 3 上海交通大学 ##  MemReranker:面向智能体记忆检索的推理感知重排序 Jingyi Kang Ding Chen Mengyuan Zhang Jiajun Shen Bo Tang Xuanhe Zhou Feiyu Xiong Zhiyu Li, ###### 摘要 在智能体记忆系统中,重排序模型是连接用户查询与长期记忆的关键桥梁。大多数系统采用“先检索再重排序”的两阶段范式,但通用重排序模型依赖语义相似度匹配,缺乏真正的推理能力,导致召回结果虽然在语义上高度相关,却并不包含回答问题所需的关键信息。这种缺陷在记忆场景中表现为三个具体问题。首先,相关性评分校准不良,使得基于阈值的过滤变得困难。其次,面对时间约束、因果推理等复杂查询时,排序性能下降。第三,模型无法利用对话上下文进行语义消歧。本报告介绍了 MemReranker,这是一个基于 Qwen3-Reranker 通过多阶段大语言模型知识蒸馏构建的重排序模型家族(0.6B/4B)。多教师成对比较生成了校准后的软标签,BCE 逐点蒸馏建立了分布良好的评分,而 InfoNCE 对比学习则增强了对困难样本的区分能力。训练数据结合了通用语料和涵盖时间约束、因果推理及共指消解的记忆特定多轮对话数据。在记忆检索基准测试上,MemReranker-0.6B 在关键指标上大幅优于 BGE-Reranker,并达到了开源 4B/8B 模型以及 GPT-4o-mini 的水平。MemReranker-4B 进一步实现了 0.737 的平均精度均值(MAP),多项指标与 Gemini-3-Flash 持平,同时将推理延迟保持在大型模型的 10–20% 左右。在金融和医疗垂直领域基准测试中,该模型保留了与主流大参数重排序器相当的一般化能力。 ## 1 引言 参见标题 **图 1:** 传统重排序 vs. MemReranker。左:通用重排序器依赖浅层语义匹配,无指令或上下文感知,产生校准不良的评分(左偏分布)。右:MemReranker 将大语言模型级别的推理蒸馏到紧凑模型中,纳入指令感知、上下文理解、多轮对话支持以及 Elo/Bradley-Terry 校准评分,产生分布良好的相关性评分,从而实现可靠的基于阈值的过滤。 长期记忆正在成为将智能体系统从单轮工具转变为持久伴侣的核心能力 [memorysurvey, memos]。最近的研究通过结构化记忆操作系统和显式记忆架构,确立了记忆作为一等系统资源的地位 [memory3],而 Mem0 [mem0] 等生产就绪记忆层和 A-Mem [amem] 等智能体记忆框架展示了对记忆增强智能体的日益增长的需求。当智能体能够准确回忆起三个月前提及的饮食偏好、两周前讨论的项目决策,或昨天表达的情绪状态时,交互体验将发生质的飞跃。实现这一能力取决于一个看似简单但极具挑战性的技术组件:针对当前查询,从成千上万的历史对话片段中精确检索出真正相关的记忆。 现有系统通常采用“先检索再重排序”的两阶段范式,其中 BGE-M3 [bgem3] 等密集向量模型完成候选召回,重排序模型进行细粒度排序。然而,这种架构隐藏着一个被广泛低估的根本问题:**通用重排序模型严重依赖语义相似度进行排序,但语义相似度并不等同于包含答案。** 在实际的记忆检索中,大量对话片段在表面语义上与查询高度匹配,但不包含回答问题所需的关键信息。系统返回一批看似相关的结果,但下游大模型无法生成正确答案。HaluMem [halumem] 系统地刻画了这一问题,指出了提取、更新和检索阶段中的记忆幻觉(捏造、错误和遗漏)。同时,MemRL [memrl] 表明,记忆检索中的被动语义匹配往往会检索到噪声,从而推动了基于价值的检索策略。这一根本缺陷在记忆场景中进一步演变为三个具体问题: * **评分校准失败:** BGE-Reranker 等模型的相关性评分表现出极端的左偏分布(大多数分数聚集在 0.00 附近),使得生产系统几乎无法设置有效的截断阈值。 * **推理能力缺失:** 基于编码器的重排序器依赖词汇和浅层语义匹配,在面对需要时间约束、数值比较和因果逻辑推理的查询时表现不佳。 * **指令感知空白:** 通用重排序器无法利用上下文指令进行语义消歧——同样的查询“我想看看 Apple”在关于智能手机的对话中与关于水果的对话中含义截然不同,但通用模型无法区分它们。 **图 1** [^1] 说明了这种对比:传统重排序器产生左偏、校准不良的评分分布,且缺乏超越词汇匹配的推理能力;而 MemReranker 通过 Elo/Bradley-Terry 校准产生分离良好的评分,并通过大语言模型级别的知识蒸馏整合了指令感知、上下文理解和多轮对话支持。 近年来,以 RankGPT [rankgpt] 和 RankZephyr [rankzephyr] 为代表的大语言模型重排序方法表明,大语言模型可以通过深度推理和世界知识有效克服这些限制。然而,在实时记忆系统中部署 70 亿参数以上的模型在延迟和成本上都是不可行的。这就引出了本工作的核心问题:**我们能否将大参数大语言模型重排序器的推理能力蒸馏到适合生产部署的紧凑模型中,并对记忆场景进行专门增强?** 为此,我们提出了 MemReranker 模型家族(0.6B / 4B),并设计了从标签生成到对比学习的渐进式蒸馏训练流水线,以及为多轮对话语义漂移构建的专用数据集。本文的主要贡献如下: * 我们提出了用于智能体记忆检索的 MemReranker 模型家族。仅凭 0.6B/4B 参数,它们在 LOCOMO 基准测试上达到了与闭源大模型 GPT-4o-mini 和 Gemini-3-Flash 相当的排序质量,同时将推理延迟降低至约 200 毫秒。 * 我们设计了一种结合 BCE 逐点蒸馏和 InfoNCE 对比微调的两阶段训练范式,并结合基于 Elo/Bradley-Terry 的五级校准评分系统,系统性地解决了小模型的评分校准和困难样本区分挑战。 * 我们构建了针对记忆场景的多轮对话数据工程流水线,涵盖历史蒸馏、困难负样本生成和指令增强,使模型能够从对话片段中学习共指消解和话题漂移建模。 * 我们在记忆检索、困难案例排序、金融和医疗基准测试上进行了系统评估和消融分析,验证了每个设计选择的有效性。 [^1]: https://arxiv.org/html/2605.06132#S1.F1 ## 2 相关工作 ### 2.1 基于大语言模型的重排序 大语言模型与文档重排序的整合从根本上重塑了信息检索格局。RankGPT [rankgpt] 首创了通过精心设计提示使用 GPT-4 进行零样本列表级重排序。RankZephyr [rankzephyr] 表明,从 GPT-4 教师排名蒸馏的开源 7B 模型在 TREC 深度学习赛道 [trecdl] 和 BEIR [beir] 基准测试上的性能可以匹配或超过专有模型。FIRST 方法 [first] 通过从首词元 logits 生成排名而不是完整序列生成,进一步提高了效率。这些进展确立了一个明确的层级:大语言模型重排序器通过深度推理实现卓越质量,但计算成本极高(7B+ 参数,序列生成开销)。这引发了一股蒸馏研究浪潮,旨在将大语言模型排序知识压缩到紧凑、可部署的模型中。 ### 2.2 重排序的知识蒸馏 **表 1** [^2] 总结了指导我们方法的关键蒸馏方法。 | 方法 | 教师模型 | 学生模型 | 损失函数 | 关键创新 | | :--- | :--- | :--- | :--- | :--- | | Rank-DistiLLM | RankZephyr 7B | MonoELECTRA 335M | 列表级 + 困难负样本 | 比大语言模型重排序快 $173\times$ | | DeAR | LaMA2-13B | Qwen 1.7B–7B | CE + RankNet + KL | 两阶段:逐点 $\to$ 列表级 CoT | | zerank / zELO | 大语言模型集成 | Qwen3-1.7B | 均方误差 (MSE) | 成对 $\to$ Elo $\to$ 逐点 MSE | | InRanker | monoT5-3B | T5-small 60M | MSE (软标签) | 60M 模型匹配 3B 教师质量 | | BiXSE | 大语言模型分级标签 | Qwen2.5-0.5B | BCE (分级分数) | 每个查询 1 个标签;在 0.5B 规模下 BCE $\gg$ InfoNCE | | **MemReranker** | GPT / Qwen 集成 | Qwen3-0.6B/4B | BCE $\to$ InfoNCE (两阶段) | 面向记忆;指令感知;多轮对话 | **表 1:** 重排序关键蒸馏方法总结。MemReranker 结合了多个先前工作的见解,并引入了特定于记忆的适配。 Rank-DistiLLM [rankdistillm] 证明,使用大语言模型蒸馏数据训练的交叉编码器可以在比大语言模型快 $173\times$ 的情况下达到大语言模型级别的有效性。DeAR [dear] 提出了一个两阶段流水线——逐点蒸馏后接列表级思维链训练——即使在 1.7B 规模下也表现出色。zerank/zELO [zerank] 通过将成对大语言模型判断转化为 Elo/Thurstone 分数,贡献了一种原则性的评分校准方法,产生校准良好的连续输出。InRanker [inranker] 取得了惊人结果,通过软标签 MSE 蒸馏,60M 参数模型匹配了其 3B 教师的质量。BiXSE [bixse] 提供了一个关键见解:在 0.5B 参数规模下,使用大语言模型分级分数的 BCE 损失优于 InfoNCE 对比学习——这直接指导了我们的训练策略。 [^2]: https://arxiv.org/html/2605.06132#S2.T1 ### 2.3 现有重排序器架构 我们调查了生产重排序模型的现状以指导我们的架构决策。**表 2** [^3] 展示了比较。 | 模型 | 架构 | 输出 | 参数量 | 最大长度 | 语言 | 关键特性 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | BGE-Reranker-v2-m3 | 仅编码器 (XLM-R) | Logits (标量) | 560M | 8192 | 100+ | 标准交叉编码器 | | BGE-Reranker-v2-Gemma | 仅解码器 (Gemma) | 词元概率 (是/否) | 2B / 9B | 8192 | 以英语为中心 | 基于大语言模型的交叉编码器 | | Qwen3-Reranker [qwen3embedding] | 仅解码器 (Qwen3) | 生成文本 / logits | 0.6B–8B | 32K+ | 100+ | 生成评分 + MRL | | Jina-Reranker-v2 | 仅编码器 (XLM-R) | Logits | 278M | 8192 | 89+ | 任务适配器 | | RankZephyr | 仅解码器 (Zephyr 7B) | 列表级排列 | 7B | 4096 | 以英语为中心 | GPT-4 蒸馏;零样本 | **表 2:** 生产重排序模型架构概述。 [^3]: https://arxiv.org/html/2605.06132#S2.T2 ### 2.4 损失函数演进 损失函数的选择对重排序器行为有深远影响,特别是在小模型规模下。我们的分析与 BiXSE 等人的系统比较结果一致:在 500–600M 参数规模下,逐点蒸馏损失(BCE/MSE)在评分校准方面优于对比学习方法。对比学习倾向于产生聚集的分数,使得设置有效阈值变得困难。然而,将对标微调作为第二阶段应用(遵循 DeAR 范式)可以进一步增强排序区分度,而不会牺牲校准质量。 | 损失类型 | 优势 | 局限性 | | :--- | :--- | :--- | | 逐点 (BCE/MSE) | 梯度稳定;0-1 连续标签;校准概率 | 无直接相对排序优化;分数聚集 | | 成对 (RankNet [ranknet]) | 学习相对排序;对困难负样本有效 | $O(n^2)$ 复杂度;无列表级优化 | | 列表级 (InfoNCE) | 优化完整排序;批次内负采样 | 对温度敏感;需要大批次 | | 蒸馏 (KL/MSE) | 转移大语言模型推理;0.6B 可达到 7B 水平 | 教师推理开销;质量受限于教师 | **表 3:** 重排序器训练损失函数族比较。 ### 2.5 智能体记忆系统 智能体记忆架构的快速发展为 MemReranker 提供了应用背景。MemOS [memos] 提出了一种将记忆视为一等计算资源的记忆操作系统,引入 MemCube 作为通过三层架构管理参数、激活和纯文本记忆的统一抽象。Memory3 [memory3] 引入了显式记忆作为与隐式记忆(模型参数)和工作记忆(上下文键值对)并列的第三种记忆形式,证明带有显式记忆的 2.4B 模型可以超越更大的大语言模型和 RAG 模型。Mem0 [mem0] 提供了一个生产就绪的记忆层,动态地从持续对话中提取和检索显著信息,并在 LOCOMO 基准 [locomo] 上进行评估。A-Mem [amem] 提出了一种智能体语义记忆系统,其中记忆带有上下文标签并动态链接。HippoRAG [hipporag] 从大语言模型的长期记忆的海马体记忆索引理论中汲取灵感。 在评估方面,LOCOMO 基准为超长对话记忆提供了主要测试平台,涵盖跨越多达 35 个会话、长达 300 轮对话的问答、事件摘要和多模态对话生成。HaluMem [halumem] 引入了第一个针对记忆系统的工作级别幻觉评估基准,将记忆工作流分解为提取、更新和问答阶段。MemRL [memrl] 进一步表明,记忆检索质量对智能体自我进化至关重要,提出在情节记忆上进行强化学习以取代被动语义匹配。 这些系统和基准共同确立了**检索质量是智能体记忆的瓶颈**这一事实,这是一个 MemReranker 通过具备推理能力、校准良好的重排序直接解决的问题。 ## 3 方法 ### 3.1 模型架构与评估设计 参见标题 **图 2:** MemReranker 架构。该模型基于 Qwen3-Reranker,使用 BCE 损失训练。最后词元的表示通过线性头和 sigmoid 激活投影,以产生校准后的 $[0,1]$ 相关性评分。三类检索指令实现了意图聚焦、实体增强和方面约束评分。 如**图 2** [^4] 所示,MemReranker 以 Qwen3-Reranker 为基础。我们在训练过程中采用二元交叉熵(BCE)损失——这一设计选择得益于 BiXSE [bixse] 的经验证据。他们的研究结果表明,在这一特定参数规模下,使用 BCE 训练的模型始终比使用 InfoNCE 损失训练的模型表现更优,有效地确立了 BCE 作为 sigmoid 激活相关性评分的最佳最大似然估计器。 [^4]: https://arxiv.org/html/2605.06132#S3.F2
相似文章
ReM-MoA:推理记忆维持混合智能体扩展
ReM-MoA 引入了一种记忆增强的混合智能体框架,通过排序推理记忆和策划的多样化记忆路由来维持扩展,在五个推理基准测试中优于之前的 MoA 变体。
MemReread:通过记忆引导的重读增强智能体长上下文推理
MemReread 提出了一种长上下文推理方法,通过分解问题和重读文本来恢复被丢弃的信息,避免了中间检索,实现了线性时间复杂度。该方法在长上下文推理任务上优于基线框架。
记忆是重构的,而非检索:LLM 代理的图记忆
MRAgent 提出了一种新颖的基于图的记忆框架,能在推理过程中动态重构记忆,在长程基准测试上实现高达 23% 的性能提升,同时降低了计算成本。
MemRefine:基于LLM的长程智能体记忆压缩框架
MemRefine是一个基于LLM的框架,用于在固定存储预算下压缩长程智能体记忆,利用相似性进行候选配对,并由LLM裁判基于事实内容决定删除或合并,在基准测试中优于基于规则的基线。
SAM:面向长程推理智能体的状态自适应记忆
本文提出 SAM,一个状态自适应记忆框架,能够动态管理长程智能体推理中的交互历史,实现意图驱动的回忆,而无需重新训练基础模型。它在多个基准测试(如 BrowseComp 和 HLE)上优于强基线方法。