KaLM-Reranker-V1：快速而非延迟交互的压缩文档重排序

Hugging Face Daily Papers 2026/06/22 00:00 论文

reranking retrieval encoder-decoder matryoshka-embedding cross-attention efficient-nlp

摘要

KaLM-Reranker-V1 是一种快速重排序模型，通过采用编码器-解码器架构，结合 Matryoshka 嵌入池化和交叉注意力机制，将查询与段落计算解耦，在 BEIR 上实现了最先进的重排序性能，并在多语言基准测试中取得了具有竞争力的结果。

随着检索系统规模的扩大，高质量的重排序变得日益重要。然而，现有的大多数重排序模型，无论是基于编码器还是基于解码器，都共同编码查询和段落，将它们的计算紧密耦合，从而限制了部署效率和灵活性。我们提出了 KaLM-Reranker-V1，一种快速而非延迟交互（FBNL）的重排序模型，它在解耦查询和段落计算的同时保持了富有表现力的相关性建模。基于编码器-解码器架构，KaLM-Reranker-V1 使用编码器通过 Matryoshka 嵌入池化预编码段落，而解码器则对系统指令、用户指令和查询意图进行建模；交叉注意力机制随后捕获查询上下文与段落表示之间的相关性。这种设计使得 KaLM-Reranker-V1 通过解耦的段落编码实现了高效性，同时通过交叉注意力保留了丰富的相关性建模，从而并非延迟交互。我们实例化了 KaLM-Reranker-V1 的三种规模：Nano、Small 和 Large，分别具有 0.27B、1B 和 4B 的激活参数。在 BEIR、MIRACL 和 LMEB 上的大量实验表明，KaLM-Reranker-V1 以卓越的效率实现了强大的重排序性能。在 BEIR 上，KaLM-Reranker-V1 达到了最先进的性能，与 Qwen3-Reranker 系列等强大的工业模型不相上下；在 MIRACL 上，尽管未经过多语言数据的广泛训练，KaLM-Reranker-V1 仍然展现出了出色的重排序性能。此外，在 LMEB 上，重排序模型显示出明显的优势，即使是 0.27B 的 Nano 模型也能与 7-12B 的嵌入模型竞争。

查看原文

查看缓存全文

缓存时间: 2026/06/23 05:41

论文页面 - KaLM-Reranker-V1: 快速但非延迟交互的压缩文档重排序

来源: https://huggingface.co/papers/2606.22807

摘要

KaLM-Reranker-V1 是一款快速重排序器，它采用编码器-解码器架构解耦查询和段落计算，结合 Matryoshka 嵌入池化和交叉注意力，实现高效的相关性建模。

随着检索系统规模扩大，高质量重排序变得愈发重要。然而，大多数现有重排序器（无论是基于编码器还是解码器）都会联合编码查询和段落，紧密耦合其计算，限制了部署效率和灵活性。我们提出 KaLM-Reranker-V1，一种快速但非延迟交互（FBNL）的重排序器，它在解耦查询和段落计算的同时，保留了表达力丰富的相关性建模能力。该模型基于编码器-解码器架构，使用编码器通过 Matryoshka 嵌入池化对段落进行预编码，同时解码器建模系统指令、用户指令和查询意图；随后通过交叉注意力捕捉查询上下文与段落表示之间的相关性。这种设计通过解耦的段落编码实现了高效性，同时通过交叉注意力保留了丰富的相关性建模，因而不是延迟交互。我们实例化了 KaLM-Reranker-V1 的三种规模：Nano、Small 和 Large，激活参数分别为 0.27B、1B 和 4B。在 BEIR、MIRACL 和 LMEB 上的大量实验表明，KaLM-Reranker-V1 以卓越的效率实现了强大的重排序性能。在 BEIR 上，KaLM-Reranker-V1 达到了顶尖性能，与 Qwen3-Reranker 系列等强大的工业模型相当；在 MIRACL 上，尽管未经过多语言数据的广泛训练，KaLM-Reranker-V1 仍展现出出色的重排序性能。此外，在 LMEB 上，重排序模型显示出明显优势，即使是 0.27B 的 Nano 模型也能与 7-12B 的嵌入模型保持竞争力。

查看 arXiv 页面 (https://arxiv.org/abs/2606.22807) 查看 PDF (https://arxiv.org/pdf/2606.22807) 项目页面 (https://kalm-embedding.github.io/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.22807)

在你的智能体中获取此论文：

hf papers read 2606\.22807

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型3

KaLM-Embedding/KaLM-Reranker-V1-Nano 文本排序• 0.8B• 更新于约 3 小时前 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Nano)

KaLM-Embedding/KaLM-Reranker-V1-Small 文本排序• 2B• 更新于约 3 小时前 • 2 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Small)

KaLM-Embedding/KaLM-Reranker-V1-Large 文本排序• 8B• 更新于约 3 小时前 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Large)

引用此论文的数据集0

无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.22807 以从本页面链接。

引用此论文的 Spaces0

无 Space 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.22807 以从本页面链接。

KaLM-Reranker-V1：快速而非延迟交互的压缩文档重排序

论文页面 - KaLM-Reranker-V1: 快速但非延迟交互的压缩文档重排序

摘要

引用此论文的模型3

KaLM-Embedding/KaLM-Reranker-V1-Nano 文本排序• 0.8B• 更新于约 3 小时前 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Nano)

KaLM-Embedding/KaLM-Reranker-V1-Small 文本排序• 2B• 更新于约 3 小时前 • 2 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Small)

KaLM-Embedding/KaLM-Reranker-V1-Large 文本排序• 8B• 更新于约 3 小时前 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Large)

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏2

相似文章

MemReranker：面向智能体记忆检索的推理感知重排序

@lujasper: 在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。Mixedbread的重排序器是一...

@liquidai: 介绍 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M：两款为超快且精准的多语言检索模型

River-LLM：基于 KV 共享的大模型无感早退方案

从KV缓存压缩的角度重新思考LoRA内存

提交意见反馈

论文页面 - KaLM-Reranker-V1: 快速但非延迟交互的压缩文档重排序

摘要

引用此论文的模型3

KaLM-Embedding/KaLM-Reranker-V1-Nano 文本排序• 0.8B• 更新于约 3 小时前 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Nano)

KaLM-Embedding/KaLM-Reranker-V1-Small 文本排序• 2B• 更新于约 3 小时前 • 2 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Small)

KaLM-Embedding/KaLM-Reranker-V1-Large 文本排序• 8B• 更新于约 3 小时前 • 1 (https://huggingface.co/KaLM-Embedding/KaLM-Reranker-V1-Large)

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏2

相似文章

MemReranker：面向智能体记忆检索的推理感知重排序

@__lu__jasper: 在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。Mixedbread的重排序器是一...

@liquidai: 介绍 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M：两款为超快且精准的多语言检索模型

River-LLM：基于 KV 共享的大模型无感早退方案

从KV缓存压缩的角度重新思考LoRA内存

提交意见反馈

@lujasper: 在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。Mixedbread的重排序器是一...