KaLM-Reranker-V1:快速而非延迟交互的压缩文档重排序
摘要
KaLM-Reranker-V1 是一种快速重排序模型,通过采用编码器-解码器架构,结合 Matryoshka 嵌入池化和交叉注意力机制,将查询与段落计算解耦,在 BEIR 上实现了最先进的重排序性能,并在多语言基准测试中取得了具有竞争力的结果。
查看缓存全文
缓存时间: 2026/06/23 05:41
论文页面 - KaLM-Reranker-V1: 快速但非延迟交互的压缩文档重排序
来源: https://huggingface.co/papers/2606.22807
摘要
KaLM-Reranker-V1 是一款快速重排序器,它采用编码器-解码器架构解耦查询和段落计算,结合 Matryoshka 嵌入池化和交叉注意力,实现高效的相关性建模。
随着检索系统规模扩大,高质量重排序变得愈发重要。然而,大多数现有重排序器(无论是基于编码器还是解码器)都会联合编码查询和段落,紧密耦合其计算,限制了部署效率和灵活性。我们提出 KaLM-Reranker-V1,一种快速但非延迟交互(FBNL)的重排序器,它在解耦查询和段落计算的同时,保留了表达力丰富的相关性建模能力。该模型基于编码器-解码器架构,使用编码器通过 Matryoshka 嵌入池化对段落进行预编码,同时解码器建模系统指令、用户指令和查询意图;随后通过交叉注意力捕捉查询上下文与段落表示之间的相关性。这种设计通过解耦的段落编码实现了高效性,同时通过交叉注意力保留了丰富的相关性建模,因而不是延迟交互。我们实例化了 KaLM-Reranker-V1 的三种规模:Nano、Small 和 Large,激活参数分别为 0.27B、1B 和 4B。在 BEIR、MIRACL 和 LMEB 上的大量实验表明,KaLM-Reranker-V1 以卓越的效率实现了强大的重排序性能。在 BEIR 上,KaLM-Reranker-V1 达到了顶尖性能,与 Qwen3-Reranker 系列等强大的工业模型相当;在 MIRACL 上,尽管未经过多语言数据的广泛训练,KaLM-Reranker-V1 仍展现出出色的重排序性能。此外,在 LMEB 上,重排序模型显示出明显优势,即使是 0.27B 的 Nano 模型也能与 7-12B 的嵌入模型保持竞争力。
查看 arXiv 页面 (https://arxiv.org/abs/2606.22807) 查看 PDF (https://arxiv.org/pdf/2606.22807) 项目页面 (https://kalm-embedding.github.io/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.22807)
在你的智能体中获取此论文:
hf papers read 2606\.22807
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型3
KaLM-Embedding/KaLM-Reranker-V1-Nano 文本排序• 0.8B• 更新于约 3 小时前 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Nano)
KaLM-Embedding/KaLM-Reranker-V1-Small 文本排序• 2B• 更新于约 3 小时前 • 2 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Small)
KaLM-Embedding/KaLM-Reranker-V1-Large 文本排序• 8B• 更新于约 3 小时前 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Large)
引用此论文的数据集0
无数据集关联此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.22807 以从本页面链接。
引用此论文的 Spaces0
无 Space 关联此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.22807 以从本页面链接。
包含此论文的收藏2
相似文章
MemReranker:面向智能体记忆检索的推理感知重排序
MemReranker 是一个针对智能体记忆检索设计的推理感知重排序模型家族(0.6B/4B),通过结合 LLM 知识蒸馏技术解决语义相似性匹配的局限性,从而提升模型的时间与因果推理能力。
@__lu__jasper: 在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。Mixedbread的重排序器是一...
在子采样OBLIQ-bench上测试搜索的早期结果显示,Mixedbread的重排序器获得了较强的MRR,有时在某些指标上优于GPT 5.5,且速度更快,但该基准测试仍具有挑战性。
@liquidai: 介绍 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M:两款为超快且精准的多语言检索模型
Liquid AI 推出 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M,这两款多语言检索模型经过优化,可在11种语言中实现快速准确的搜索,延迟低至1.5毫秒。
River-LLM:基于 KV 共享的大模型无感早退方案
River-LLM 提出一种无需训练的 decoder-only 大模型早退框架,通过 KV 共享消除 KV-cache 缺口,在无损质量的前提下实现 1.71–2.16 倍推理加速。
从KV缓存压缩的角度重新思考LoRA内存
本文研究了文档级问答中参数侧内存(LoRA适配器)与上下文侧内存(KV缓存)之间的交互。研究发现,当KV缓存被大幅压缩时,文档LoRA变得最有价值,可恢复13–21个ROUGE-L点,并且经过问答监督的适配器优于基于下一词预测的适配器。