对 Google Embeddings 2 与开源模型在多语言稠密检索和 RAG 系统中的基准测试

arXiv cs.CL 2026/05/25 04:00 论文

dense-retrieval multilingual embedding-models rag benchmarking open-source google-embeddings

摘要

本文对 Google Embeddings 2 与五个开源模型在多语言稠密检索和 RAG 系统中进行了基准测试，发现 GE2 在准确性上表现最佳但速度较慢，而 mE5-L 作为低延迟的竞争性替代方案。

arXiv:2605.23618v1 公告类型：新摘要：我们对 Google Embeddings (GE2)（一个 Vertex-AI 托管的双编码器，包含 2,048 个令牌的上下文和显式任务类型调节）与五个开源替代方案进行了基准测试：BGE-M3、E5-large、Multilingual-E5-large (mE5-L)、LaBSE 和 Paraphrase-Multilingual-MPNet (mMPNet)。评估涵盖四个 BEIR 子集、一个合成的意大利语 RAG 语料库、考虑三种策略下 5 种令牌大小的分块消融实验，以及在商用 CPU 硬件上的每查询延迟。GE2 在所有任务中排名第一，BEIR 平均 nDCG@10 达到 0.638，IT-RAG-Bench nDCG@10 达到 0.282，但中位延迟为 231.6 毫秒，大约是最快本地模型的 14 倍。mE5-L 在意大利语上以 31 毫秒的延迟达到与 GE2 相差 0.003 nDCG 的性能，使其成为低于 100 毫秒服务水平协议下的首选。一个更惊人的发现涉及 LaBSE，尽管广泛部署于多语言场景，其在 BEIR 上的平均 nDCG@10 仅为 0.188，低于所有专门的检索模型，包括 mMPNet。分块实验表明，所有六个模型在我们的语料库上在 32 令牌分块时达到饱和，语义分块仅在 16 令牌时提供可测量的收益。

查看原文

查看缓存全文

缓存时间: 2026/05/25 09:02

# 对 Google Embeddings 2 与开源模型在多语言稠密检索和 RAG 系统中的基准测试
来源：https://arxiv.org/html/2605.23618
###### 摘要

我们对 Google Embeddings \(GE2\)（一个由 Vertex-AI 托管的双编码器，具有 2,048 个 token 的上下文窗口和显式任务类型条件）与五个开源替代方案进行了基准测试：BGE-M3、E5-large、Multilingual-E5-large \(mE5-L\)、LaBSE 和 Paraphrase-Multilingual-MPNet \(mMPNet\)。评估涵盖四个 BEIR 子集、一个合成意大利语 RAG 语料库、一项考虑三种策略下 5 种 token 大小的分块消融实验，以及在普通 CPU 硬件上的每查询延迟。GE2 在所有任务上排名第一，在 BEIR 上平均 nDCG@10 达到 0.638，在 IT-RAG-Bench 上达到 0.282，但其中位延迟为 231.6 毫秒，比最快的本地模型慢约 14 倍。mE5-L 在意大利语任务上与 GE2 的 nDCG 差距在 0.003 以内，延迟仅 31 毫秒，当 SLA 要求低于 100 毫秒时，它成为首选选项。一个更引人注目的发现是 LaBSE，尽管它被广泛部署于多语言场景，但在 BEIR 上的平均 nDCG@10 仅为 0.188，低于包括 mMPNet 在内的所有专用检索模型。分块实验表明，在我们的语料库上，所有六个模型在 32 token 的分块大小时达到饱和，语义分块仅在 16 token 时带来可测量的收益。代码和数据集已公开发布¹。

¹代码公开地址：https://github.com/cciro94/GoogleEmbeddings2-benchmark

## I引言

检索增强生成（RAG）[6 (https://arxiv.org/html/2605.23618#bib.bib1)] 已成为将大语言模型锚定到外部知识源的主要范式。然而，从严谨的信息论角度来看，任何 RAG 系统的性能根本上受限于其检索组件的有效性。任何未被检索到的段落都无法用于引用、摘要或下游推理，无论生成模型的能力或表达能力如何[9 (https://arxiv.org/html/2605.23618#bib.bib3)]。这种瓶颈特性具有一个常被低估的重要实践意义：检索阶段产生的错误对于所有后续处理是不可恢复的，而生成阶段引入的错误则仍可观察，原则上可以由人类读者识别和纠正。因此，确保正确检索不仅仅是性能优化的问题，而是下游系统能否正常运行的先决条件。

可扩展稠密检索的主流架构是双编码器[5 (https://arxiv.org/html/2605.23618#bib.bib7)]，它将查询和文档独立映射到共享向量空间，并通过余弦相似度估计其相关性。这种设计支持文档语料库的离线索引，之后后续查询可以通过近似最近邻搜索（ANN）[4 (https://arxiv.org/html/2605.23618#bib.bib2)] 在近乎恒定的时间内完成，使得该方法在生产环境中能够扩展到数亿个段落。这些特征在文献中已有充分记载。然而，相对较少被探索的主题（也是本文的主要关注点）是嵌入模型的选择如何与已部署的 RAG 流水线的操作约束相互作用。这些约束包括语言覆盖范围、最大文档长度、分块粒度、延迟要求，以及短用户查询与较长检索段落之间固有的结构不匹配。

这个问题的三个方面在实践者工作流程中尤其被低估。第一个方面是*对称*与*非对称*相似性目标之间的区别。许多广泛使用的多语言模型，包括 LaBSE[2 (https://arxiv.org/html/2605.23618#bib.bib19)]，旨在跨语言对齐平行句子，这是一个需要对称距离度量的任务，不涉及短查询与较长段落之间的主题相关性概念。将此类模型应用于检索，相当于将一种本质上分类或对齐的目标当作排序目标来处理，两者不可互换。尽管存在这种不匹配，LaBSE 在 HuggingFace 上已累积超过 1000 万次下载，并在文档和教程中常被引用为通用多语言检索模型。我们的结果表明，这种使用模式是一个系统性的错误，并具有可衡量的质量后果。

第二个常被忽视的考虑因素是上下文长度。大多数公开可用的开源嵌入模型的最大输入大小为 512 个子词 token，这是继承自它们所基于的 BERT 系列架构的限制。然而，在实际的 RAG 设置中，许多语料库——尤其是在法律、医疗和行政领域——包含远超此限制的段落。主流的缓解策略是截断，这会静默地丢弃语义相关的内容，从而根据截断点之外的相关信息比例降低检索性能。Google 的 Embeddings \(GE2\) 将上下文预算增加到 2,048 个 token，但据我们所知，其对检索质量的影响尚未被独立评估或系统性地描述。

第三个方面是分块。当文档超过模型的上下文窗口时，必须将其拆分为更小的单元再嵌入。文献中的建议从固定大小的拆分（如 256 或 512 token）到复杂的语义分割，但关于哪种策略重要以及以何种粒度进行的系统性证据仍然匮乏。实践者通常凭直觉或通用指南来调整分块，而不是基于数据集特定的消融，并且分块大小与模型架构之间的相互作用很少被研究。

在此背景下，我们提出了一项针对 GE2 与五个开源替代方案的系统性基准研究。我们的核心目标不是选出赢家（这在进行实验后是显而易见的），而是理解模型质量差异的*原因*、它们的失败模式所在，以及哪些部署约束决定了质量差距是否值得延迟成本。我们发现，GE2 实现了持续更好的检索质量，尤其是在涉及长文档或查询-文档表面形式高度异构的任务上，但 mE5-L 在短段落、单语言语料库上以极低的延迟几乎完全弥合了这一差距。这些发现直接指导了实践者在实际约束下必须做出的模型选择决策。

我们的主要贡献总结如下：

1. 我们在 BEIR、IT-RAG-Bench（一个新引入的合成意大利语语料库）以及分块策略的系统性扫描中，对 GE2 与五个开源模型进行了完全可复现的评估。
2. 据我们所知，我们提供了首批比较 GE2 与多语言开源模型在意大利语段落检索上的基准之一。
3. 我们提供了所有六个模型对分块敏感性的实验性描述，揭示了短段落语料库在 32 token 处出现饱和平台，并在 16 token 以下出现显著性能下降。
4. 我们进行了延迟-质量帕累托分析，为在异构 SLA 约束下的 RAG 部署中的模型选择提供了可操作的指导。

## II相关工作

### II-A检索基准与评估协议

标准化基准对于区分稠密检索的真实改进与分布内过拟合至关重要。BEIR[10 (https://arxiv.org/html/2605.23618#bib.bib4)] 通过聚合跨生物医学、金融、法律和科学领域的 18 个异构检索任务，并采用零样本评估协议（模型不在目标数据集上微调），建立了当前的标准。零样本条件至关重要：它暴露了那些因强大的领域内训练而无法泛化的模型，这是一种影响多个高容量模型的失败模式，其影响程度可能超出领域内分数的预期。

MTEB[7 (https://arxiv.org/html/2605.23618#bib.bib5)] 进一步将评估范围扩大到 56 个任务，除了检索之外，还包括聚类、分类和语义文本相似度。尽管 MTEB 提供了嵌入效用的广泛评估，但跨不同任务类型聚合结果可能会隐藏模型特定的检索行为。在分类任务上达到最先进性能的模型可能在排序任务上表现不佳，反之亦然。

多语言检索由 MIRACL[12 (https://arxiv.org/html/2605.23618#bib.bib6)] 处理，它涵盖 18 种语言，并专门设计以避免依赖以英语为中心的评估假设。MIRACL 的一个一致发现是，即使对于明确进行多语言训练的模型，在非英语任务上的性能也会大幅下降，并且这种退化在不同模型和语言族之间是不均匀的。我们的 IT-RAG-Bench 设计思路类似，但专门适应于检索增强生成（RAG）设置，其段落长度和领域分布（维基百科、公共管理、民法典）与 MIRACL 的新闻导向语料库有显著差异。

### II-B双编码器架构与训练目标

大多数现代稠密检索器背后的架构是双编码器或双编码器，其中独立（或权重共享）的编码器生成查询和文档表示，通过点积或余弦相似度进行评分[5 (https://arxiv.org/html/2605.23618#bib.bib7)]。在这个广泛的类别中，训练目标差异很大，并对下游行为产生重要影响。

**对比检索训练**。DPR[5 (https://arxiv.org/html/2605.23618#bib.bib7)] 引入了现在标准的配方：使用（查询、正例段落、难负例）三元组进行训练，并加入批次内负例。其关键见解是，从 BM25 或先前模型版本中挖掘的难负例对于防止模型学习一个不能捕捉细粒度相关性的、可简单分离的嵌入空间是必要的。后续工作在此基础上进行了实质性改进。E5[11 (https://arxiv.org/html/2605.23618#bib.bib14)] 通过从网络上抓取的（标题、正文）对中的弱监督增强了对比训练，从而在没有标注检索数据集的情况下实现了强大的零样本泛化。这种方法减少了对昂贵标注流水线的依赖，并在多语言网络数据可用时自然地扩展到新语言，正如在 mE5-L 中那样。

**多任务与多粒度模型**。BGE-M3[1 (https://arxiv.org/html/2605.23618#bib.bib13)] 训练单个模型同时支持稠密检索、稀疏检索和多向量（ColBERT 风格）检索，使用自知识蒸馏来对齐三个输出头。其动机在原则上是令人信服的：统一模型可以根据下游应用调整其检索模式。然而，在实践中，多任务训练涉及优化权衡，并非对所有任务都有均匀的益处。我们的结果显示，尽管参数数量更大，BGE-M3 在 BEIR 零样本检索上的性能显著低于 mE5-L，这一模式与对比排序与其他目标之间的多任务张力一致。

**重新用于检索的句子相似度模型**。LaBSE[2 (https://arxiv.org/html/2605.23618#bib.bib19)] 设计用于语言无关的句子嵌入，主要在双文本对上进行跨语言句子对齐训练。它的训练信号是对称的：一对中的两个元素是不同语言中的“相似”句子，模型学习一个对表面形式差异不变的距離函数。这恰好是段落检索错误的归纳偏置：查询通常是短的自然语言问题，而相关段落是更长的文档片段，具有不同的词汇、风格和结构。模型没有训练信号来对齐这些异构对象，其嵌入反映的是句子级别的邻近性，而非主题相关性。观察到的这种不匹配并不构成 LaBSE 相对于其最初预期应用的缺陷。相反，在 RAG 流水线中使用 LaBSE 作为主要检索骨干是一种根本性的方法论错位，然而，在面向实践者的教程和公开可用的代码库中，这种用法仍然经常出现。

类似的问题也影响使用释义导向目标训练的 Sentence-BERT 变体，例如 mMPNet。这些模型最常在语义文本相似度（STS）基准上进行评估，其中近重复检测是主要的评估场景。然而，STS 分数与 BEIR 检索性能的相关性很弱，因为正例对的底层分布存在显著差异：释义对通常与其查询共享大量的表面词汇重叠，而在信息检索中，相关段落往往不共享。因此，为释义优化的模型无法学习有效检索所需的非对称相关性模式。

**具有非对称任务条件的 API 托管模型**。GE2 \(Embeddings\) 背离了传统的对称双编码器范式，通过对输入（被指定为查询 \(RETRIEVAL\_QUERY\) 或文档 \(RETRIEVAL\_DOCUMENT\)）应用不同的表示变换。这种非对称条件在任务类型层面实现，而不是通过单独的编码器参数化，但它有效地导致查询和文档表示向嵌入空间中几何互补的区域进行系统性位移。OpenAI 的 text-embedding-3 系列采用了概念上相似的策略，并且两个提供商的初步内部评估表明，非对称条件在查询和文档表现出不同表面统计特征的任务上产生了一致的性能改进。迄今为止，在本研究之前，还没有独立的零样本评估将 GE2 与开源替代方案进行比较。

### II-C稠密检索中的分块策略

分块，即将长文档分割成更小的、独立可检索单元的过程，在研究文献中相对于模型架构和训练方法受到的关注相对有限，尽管它几乎是所有现实世界 RAG 系统的实际部署需求。核心的设计权衡涉及信息密度与边界引起的碎片化效应。更大的块能更好地保持句子间的连贯性，但可能通过包含无关或弱相关的上下文而降低检索精度。更小的块能集中任务相关信息并提高检索特异性，但增加了论点、叙述段或事实主张被分割到块边界的风险，可能损害后续的推理和生成。

固定大小的分割（可选重叠）是最基本的分割策略，常在比较评估中用作基线。滑动窗口变体在连续段之间引入可控的重叠，以降低语义重要句子被分割的概率。

对 Google Embeddings 2 与开源模型在多语言稠密检索和 RAG 系统中的基准测试

相似文章

Granite Embedding Multilingual R2：基于Apache 2.0的开源多语言嵌入模型，支持32K上下文——参数量低于1亿的检索质量最佳

beautyyuyanli/multilingual-e5-large

@raphaelsrty：今天我们开源 LateOn 与 DenseOn，两款 149 M 参数的开放检索模型

@_philschmid：Gemini Embedding 2 正式发布！一个能理解文本、图像、视频、音频和 PDF 的嵌入模型！5 种模态统一嵌入空间

Gemma 2B多模态模型无需编码器即可媲美更大模型

提交意见反馈