KaLM-Reranker-V1:快速而非延迟交互的压缩文档重排序

Hugging Face Daily Papers 论文

摘要

KaLM-Reranker-V1 是一种快速重排序模型,通过采用编码器-解码器架构,结合 Matryoshka 嵌入池化和交叉注意力机制,将查询与段落计算解耦,在 BEIR 上实现了最先进的重排序性能,并在多语言基准测试中取得了具有竞争力的结果。

随着检索系统规模的扩大,高质量的重排序变得日益重要。然而,现有的大多数重排序模型,无论是基于编码器还是基于解码器,都共同编码查询和段落,将它们的计算紧密耦合,从而限制了部署效率和灵活性。我们提出了 KaLM-Reranker-V1,一种快速而非延迟交互(FBNL)的重排序模型,它在解耦查询和段落计算的同时保持了富有表现力的相关性建模。基于编码器-解码器架构,KaLM-Reranker-V1 使用编码器通过 Matryoshka 嵌入池化预编码段落,而解码器则对系统指令、用户指令和查询意图进行建模;交叉注意力机制随后捕获查询上下文与段落表示之间的相关性。这种设计使得 KaLM-Reranker-V1 通过解耦的段落编码实现了高效性,同时通过交叉注意力保留了丰富的相关性建模,从而并非延迟交互。我们实例化了 KaLM-Reranker-V1 的三种规模:Nano、Small 和 Large,分别具有 0.27B、1B 和 4B 的激活参数。在 BEIR、MIRACL 和 LMEB 上的大量实验表明,KaLM-Reranker-V1 以卓越的效率实现了强大的重排序性能。在 BEIR 上,KaLM-Reranker-V1 达到了最先进的性能,与 Qwen3-Reranker 系列等强大的工业模型不相上下;在 MIRACL 上,尽管未经过多语言数据的广泛训练,KaLM-Reranker-V1 仍然展现出了出色的重排序性能。此外,在 LMEB 上,重排序模型显示出明显的优势,即使是 0.27B 的 Nano 模型也能与 7-12B 的嵌入模型竞争。
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:41

论文页面 - KaLM-Reranker-V1: 快速但非延迟交互的压缩文档重排序

来源: https://huggingface.co/papers/2606.22807

摘要

KaLM-Reranker-V1 是一款快速重排序器,它采用编码器-解码器架构解耦查询和段落计算,结合 Matryoshka 嵌入池化和交叉注意力,实现高效的相关性建模。

随着检索系统规模扩大,高质量重排序变得愈发重要。然而,大多数现有重排序器(无论是基于编码器还是解码器)都会联合编码查询和段落,紧密耦合其计算,限制了部署效率和灵活性。我们提出 KaLM-Reranker-V1,一种快速但非延迟交互(FBNL)的重排序器,它在解耦查询和段落计算的同时,保留了表达力丰富的相关性建模能力。该模型基于编码器-解码器架构,使用编码器通过 Matryoshka 嵌入池化对段落进行预编码,同时解码器建模系统指令、用户指令和查询意图;随后通过交叉注意力捕捉查询上下文与段落表示之间的相关性。这种设计通过解耦的段落编码实现了高效性,同时通过交叉注意力保留了丰富的相关性建模,因而不是延迟交互。我们实例化了 KaLM-Reranker-V1 的三种规模:Nano、Small 和 Large,激活参数分别为 0.27B、1B 和 4B。在 BEIR、MIRACL 和 LMEB 上的大量实验表明,KaLM-Reranker-V1 以卓越的效率实现了强大的重排序性能。在 BEIR 上,KaLM-Reranker-V1 达到了顶尖性能,与 Qwen3-Reranker 系列等强大的工业模型相当;在 MIRACL 上,尽管未经过多语言数据的广泛训练,KaLM-Reranker-V1 仍展现出出色的重排序性能。此外,在 LMEB 上,重排序模型显示出明显优势,即使是 0.27B 的 Nano 模型也能与 7-12B 的嵌入模型保持竞争力。

查看 arXiv 页面 (https://arxiv.org/abs/2606.22807) 查看 PDF (https://arxiv.org/pdf/2606.22807) 项目页面 (https://kalm-embedding.github.io/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.22807)

在你的智能体中获取此论文:

hf papers read 2606\.22807

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型3

KaLM-Embedding/KaLM-Reranker-V1-Nano 文本排序• 0.8B• 更新于约 3 小时前 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Nano)

KaLM-Embedding/KaLM-Reranker-V1-Small 文本排序• 2B• 更新于约 3 小时前 • 2 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Small)

KaLM-Embedding/KaLM-Reranker-V1-Large 文本排序• 8B• 更新于约 3 小时前 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Large)

引用此论文的数据集0

无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.22807 以从本页面链接。

引用此论文的 Spaces0

无 Space 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.22807 以从本页面链接。

包含此论文的收藏2

相似文章

从KV缓存压缩的角度重新思考LoRA内存

arXiv cs.CL

本文研究了文档级问答中参数侧内存(LoRA适配器)与上下文侧内存(KV缓存)之间的交互。研究发现,当KV缓存被大幅压缩时,文档LoRA变得最有价值,可恢复13–21个ROUGE-L点,并且经过问答监督的适配器优于基于下一词预测的适配器。