m3BERT：一种现代、多语言、套娃式双向编码器

arXiv cs.CL 2026/05/20 04:00 论文

multilingual embedding information-retrieval matryoshka pretraining encoder

摘要

本文介绍了m3BERT，一种多语言双向编码器，采用新颖的预训练策略，联合优化跨Transformer层和多个嵌入维度的表示，使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上，它显著优于现有最优模型。

arXiv:2605.19568v1 Announce Type: new 摘要：嵌入模型在工业信息检索系统（如搜索和广告）中至关重要。然而，现有的预训练模型通常具有固定的架构和嵌入维度，这在适应具有不同业务驱动约束的多样化部署场景时带来了重大挑战。常见的做法是针对资源受限的任务，从较大的预训练模型进行部分参数初始化的微调。这种方法往往不是最优的，因为预训练与下游使用之间的不匹配会阻碍预训练益处的充分实现。为了解决这一限制，我们引入了m3BERT：一种现代、多语言、套娃式双向编码器，它采用了一种新颖的预训练策略，联合优化跨Transformer层和多个嵌入维度的表示。这使得单个模型能够被定制以适应不同的资源和精度目标，同时保持与预训练的一致性。结合最近的架构改进，m3BERT采用三阶段预训练：单语预训练、多语言适配以服务多样化的用户群体，以及在大型网络领域语料库上进行关键的持续预训练，以增强在商业检索中的实用性。在Bing-Click（一个大规模工业检索数据集）上，m3BERT显著优于最先进的嵌入模型，展示了其作为资源感知型工业检索系统的高效基础的实际多功能性。在公共数据集上的进一步实验也证实了我们多粒度套娃式预训练策略的普遍有效性。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:26

# m3BERT：一个现代、多语言、套娃式双向编码器
来源：https://arxiv.org/html/2605.19568
\(2018\)

###### 摘要

嵌入模型在工业信息检索系统（如搜索和广告）中至关重要。然而，现有的预训练模型通常采用固定架构和固定嵌入维度，这在适应具有不同业务驱动约束的多样化部署场景时带来了巨大挑战。一种常见做法是从较大的预训练模型中部分初始化参数，然后针对资源受限的任务进行微调。这种方法通常不是最优的，因为预训练与下游使用之间的错位阻碍了预训练收益的充分发挥。为了解决这一局限性，我们提出了 m3BERT：一个现代、多语言、套娃式双向编码器，它采用了一种新颖的预训练策略，该策略在 Transformer 层和多个嵌入维度上联合优化表示。这使得单个模型能够适应不同的资源和精度目标，同时保持与预训练的一致性。结合最近的架构改进，m3BERT 采用三阶段预训练：单语预训练、多语言适应（以服务多样化的用户基础），以及在大型网络领域语料库上进行关键的持续预训练，以增强其在商业检索中的实用性。m3BERT 在大型工业检索数据集 Bing-Click 上显著优于最先进的嵌入模型，展示了其作为资源感知型工业检索系统的高效基础的实际通用性。在公开数据集上的进一步实验也证实了我们多粒度套娃预训练策略的普遍有效性。

信息检索，语言模型，网络搜索

††版权：ACM授权††出版年份：2018††DOI：XXXXXXX.XXXXXXX††会议：请从您的权利确认邮件中输入正确的会议标题；2018年6月03-05日；纽约州伍德斯托克††ISBN：978-1-4503-XXXX-X/2018/06††CCS：信息系统 语言模型††CCS：信息系统 网络与社交媒体搜索

## 1. 引言

嵌入模型是信息检索中的基本组件，尤其是仅编码器的 Transformer 架构（Patil 等，2023 (https://arxiv.org/html/2605.19568#bib.bib29)），它们广泛应用于商业应用，如搜索引擎、广告平台、检索增强生成（Xiang 等，2025 (https://arxiv.org/html/2605.19568#bib.bib33)）和智能体系统（Gao 等，2025 (https://arxiv.org/html/2605.19568#bib.bib34)）。在这些领域，在大规模数据集上进行预训练，然后使用特定领域的数据进行监督微调，已被证明是构建稳健嵌入模型的有效方法。

参见图注 图 1. 在 Bing-Click 上，mBERT 模型的检索性能（Recall@100）随 (a) 嵌入维度和 (b) Transformer 层数增加而呈现的递减收益曲线。虽然性能通常会提高，但在更高的维度/深度下收益显著减少，而计算成本（如前向延迟、嵌入内存）通常呈线性增长。

现有的预训练嵌入模型（Kenton 和 Toutanova，2019 (https://arxiv.org/html/2605.19568#bib.bib1)；Liu 等，2019 (https://arxiv.org/html/2605.19568#bib.bib2)；Wang 等，2022 (https://arxiv.org/html/2605.19568#bib.bib3)；Warner 等，2024 (https://arxiv.org/html/2605.19568#bib.bib5)）提供了强大的通用嵌入，并经常结合训练策略和架构创新来提升性能。然而，这些模型的一个显著局限性在于其僵化设计：模型大小和生成的嵌入维度都是固定的。这种僵化使得难以满足下游任务的多样化需求，这些任务可能在检索性能、延迟和计算资源之间要求不同的权衡。图 1 (https://arxiv.org/html/2605.19568#S1.F1) 说明了这一挑战：虽然增加嵌入维度或模型深度（层数）通常会提高检索性能，但在较高值下收益往往显著减少。例如，将嵌入维度从 64 翻倍到 128 可能会带来显著的性能提升，但进一步增加到 768 可能只会带来微小的改进，同时线性增加检索延迟和存储成本。

这种收益递减的特性凸显了嵌入模型设计中“一刀切”方法的低效性。因此，具有严格延迟约束或部署在资源受限硬件上的任务可能需要更小的模型和更低维度的嵌入才能高效运行，即使这意味着性能略有妥协。为了从现有的大型预训练模型中获得这些较小的变体，一种常见做法是构建一个较小的架构，并通过从大型模型中复制相应权重来初始化其参数。然而，这种部分参数初始化的方法可能无法充分利用预训练的好处，因为预训练与下游微调之间不匹配，从而限制了性能提升。

为了解决这一挑战，我们借鉴了套娃表示学习（MRL）（Kusupati 等，2022 (https://arxiv.org/html/2605.19568#bib.bib6)），该方法通过在多个维度上训练嵌入表示来实现灵活性。扩展这一概念，我们提出了一种新颖的预训练策略，该策略在 Transformer 层和嵌入维度上均纳入多粒度嵌入表示。通过在预训练期间沿着这两个轴联合优化多样化的嵌入，我们的方法为模型赋予了灵活且稳健的表示，使其成为在需要不同模型大小和嵌入维度的广泛下游任务中进行微调的更强基础。

基于这一策略，我们提出了 m3BERT，一个现代、多语言、套娃式双向编码器，旨在灵活适应不同的部署场景。虽然当前广泛使用的嵌入模型（Wang 等，2022 (https://arxiv.org/html/2605.19568#bib.bib3)；Multi-Granularity，2024 (https://arxiv.org/html/2605.19568#bib.bib19)；OrdalieTech，(https://arxiv.org/html/2605.19568#bib.bib20)）主要采用传统的 BERT 架构，但语言模型设计的最新进展（Touvron 等，2023 (https://arxiv.org/html/2605.19568#bib.bib8)；Jung 等，2010 (https://arxiv.org/html/2605.19568#bib.bib18)；Team 等，(https://arxiv.org/html/2605.19568#bib.bib17)）表明该结构的某些方面可能存在次优性。因此，我们将大型语言模型的最新架构改进融入我们的 m3BERT 中。我们的预训练过程包括三个不同的阶段：单语预训练、多语言预训练，以及在大型网络领域语料库上的持续预训练。这种三阶段方法专门设计用于增强模型在实际检索任务中的性能。

大量实验证明了我们方法的有效性和稳健性。在我们收集的大型工业数据集 BINGCLICK 上，m3BERT 在多种模型大小和嵌入维度上始终优于当前最先进的嵌入模型。为了进一步验证我们套娃预训练策略的泛化能力，我们在多个公共数据集上进行了评估，结果表明其优势不仅限于我们的特定工业用例。此外，我们探索了一种新颖的自蒸馏技术，称为套娃蒸馏，它利用我们模型的嵌套结构在预训练阶段进一步增强较小嵌入的性能。

m3BERT 的有效性通过其在 Bing 搜索中的大规模部署得到了验证。自 2025 年 6 月以来，m3BERT 一直是生产环境查询-关键词选择工作流的核心组件，持续处理超过每秒 25,000 次查询（QPS）。此次部署预计年化收入影响约 5000 万美元，证明了我们模型设计的实际商业价值和工程成功。

我们的主要贡献可总结如下：

- • 我们将套娃表示学习范式引入嵌入模型的预训练，并将其扩展到跨 Transformer 层和嵌入维度的多粒度表示。这一创新使得单个预训练模型能够有效适应不同的部署场景。
- • 我们预训练了 m3BERT，这是一个融合了现代架构进步的新颖模型。我们利用大规模、多阶段的预训练过程，包括一个大型网络领域语料库，专门定制该模型以在工业检索应用中实现卓越性能。
- • 我们的模型不仅在广泛的离线实验中优于最先进的基线，而且在 Bing 的在线流量中得到了验证，带来了显著的业务影响，预计年化收入达 5000 万美元。

## 2. m3BERT

参见图注 图 2. 使用掩码语言建模（MLM）作为训练目标的套娃模型结构概览。该模型同时优化多个 Transformer 层和多个子维度的嵌入。

### 2.1. 套娃预训练

为了在不同下游任务中实现灵活高效的嵌入，我们提出了一种多粒度嵌入预训练策略。与仅依赖最终层和全维度嵌入的传统预训练方法不同，我们的方法联合优化了多个 Transformer 层和多个子维度的嵌入。

形式上，让 Transformer 编码器共有 \(N\) 层，产生隐藏状态 \(\{h^k\}_{k=1}^N\)。来自第 \(k\) 层的每个完整隐藏状态为 \(h^k \in \mathbb{R}^{s \times M}\)，其中 \(s\) 是序列长度，\(M\) 是完整嵌入维度。为了适应不同的部署场景，我们预先定义一组选定的层索引 \(L \subseteq \{1, \ldots, N\}\) 和一组目标子维度 \(D \subseteq \{1, \ldots, M\}\)。对于每个选定的层 \(l_i \in L\) 和每个子维度 \(d_j \in D\)，我们从第 \(l_i\) 层的输出中提取截断嵌入：

\[h^{l_i}_{[:d_j]} \in \mathbb{R}^{s \times d_j}\]

其中 \(h^{l_i}_{[:d_j]}\) 表示取 \(h^{l_i}\)（第 \(l_i\) 层输出的完整 \(M\) 维隐藏状态）的前 \(d_j\) 个维度。这个过程产生了 \(|L| \times |D|\) 个不同的嵌入表示，并在训练期间联合优化。

对于掩码语言建模（MLM）训练，我们重用了一个共享的 MLM 头。MLM 头由一个投影矩阵 \(W \in \mathbb{R}^{M \times V}\) 和一个偏置 \(b \in \mathbb{R}^V\) 组成，其中 \(V\) 是词汇表大小。当使用截断嵌入 \(h^{l_i}_{[:d_j]}\) 时，我们利用相应的子矩阵 \(W_{[:d_j, :]} \in \mathbb{R}^{d_j \times V}\) 将嵌入投影到词汇表空间：

\[\hat{y}^{l_i, d_j} = \text{Softmax}\left(h^{l_i}_{[:d_j]} W_{[:d_j, :]} + b\right)\]

总损失通过聚合所有选定的（层，子维度）对的 MLM 损失来计算：

\[\mathcal{L}_{\text{total}} = \sum_{l_i \in L} \sum_{d_j \in D} \mathcal{L}_{\text{MLM}}(\hat{y}^{l_i, d_j}, y)\]

其中 \(y\) 表示掩码位置的真实 token。

通过优化 \(\mathcal{L}_{\text{total}}\)，模型学习到在层的多个粒度和嵌入维度上都一致且具有预测能力的稳健灵活的表示。这种设计确保从业者可以动态选择不同的模型深度和嵌入宽度，以平衡延迟、内存和性能之间的权衡。

### 2.2. 现代架构

在原始 BERT 架构的基础上，我们融入了来自大型语言模型（LLM）的若干最新进展，以提高训练和推理效率、增强训练稳定性并提升模型整体性能。

#### 激活函数

我们将 BERT 的 GeLU 激活替换为 SwiGLU（Shazeer，2020 (https://arxiv.org/html/2605.19568#bib.bib7)），后者已在基于 Transformer 的模型中展现出更好的性能（Warner 等，2024 (https://arxiv.org/html/2605.19568#bib.bib5)；Touvron 等，2023 (https://arxiv.org/html/2605.19568#bib.bib8)；Groeneveld 等，2024 (https://arxiv.org/html/2605.19568#bib.bib9)）。SwiGLU 激活引入了一种门控机制，提供了更强的非线性，并有助于更有效的特征学习。

#### 归一化

遵循 LLM 的最新趋势（Touvron 等，2023 (https://arxiv.org/html/2605.19568#bib.bib8)；Bai 等，2023 (https://arxiv.org/html/2605.19568#bib.bib10)），我们采用均方根层归一化（RMSNorm）（Zhang 和 Sennrich，2019 (https://arxiv.org/html/2605.19568#bib.bib11)）代替标准的 LayerNorm。此外，我们从后归一化配置过渡到前归一化设计，这能稳定训练并改善深层 Transformer 中的梯度流（Wang 等，2019 (https://arxiv.org/html/2605.19568#bib.bib12)）。

#### 偏置项和 Dropout

最近的研究（Warner 等，2024 (https://arxiv.org/html/2605.19568#bib.bib5)；Touvron 等，2023 (https://arxiv.org/html/2605.19568#bib.bib8)）表明，偏置项对模型性能贡献不大，同时引入了不必要的计算开销。我们移除了自注意力和前馈层中的偏置项。此外，我们消除了在 Transformer 层之间应用于隐藏状态的 dropout，因为移除它已被证明可以在保持性能的同时简化模型并加速训练。

#### Flash Attention

我们将标准注意力计算替换为 FlashAttention（Dao 等，2022 (https://arxiv.org/html/2605.19568#bib.bib13)；Dao，2023 (https://arxiv.org/html/2605.19568#bib.bib14)），这是一种利用分块和内存高效策略来显著加速注意力操作而不损失数值精度的算法。

通过整合这些架构改进，我们的模型继承了 BERT 已验证的优势，同时受益于最近 LLM 首创的效率和可扩展性提升。

### 2.3. 三阶段预训练

为了赋予模型广泛的语言理解能力、跨语言能力和领域特定知识，我们采用三阶段预训练策略。

#### 阶段 1：单语预训练

我们首先在由 Nemotron-CC（Su 等，2024 (https://arxiv.org/html/2605.19568#bib.bib15)）中 1000 亿个 token 组成的大型英语语料库上，使用掩码语言建模（MLM）目标进行预训练。尽管先前的工作（Wettig 等，2022 (https://arxiv.org/html/2605.19568#bib.bib31)）表明将掩码率提高到 0.3 可能有利于训练更大的模型，我们采用 0.15 的掩码率以保持与标准实践的兼容性。然后，我们继续在由 DCLM（Li 等，2024 (https://arxiv.org/html/2605.19568#bib.bib32)）语料库中 6300 亿个 token 组成的更大集合上进行预训练，该语料库经过严格过滤以包含高质量内容。

m3BERT：一种现代、多语言、套娃式双向编码器

相似文章

基于 MIPVU 框架的 Token 级中文隐喻识别多架构可复现基线

通过跨语言分词器手术和离线蒸馏将多语言嵌入模型适配到土耳其语

因果语言建模的短暂介入可提升编码器的继续预训练效果

词与道：面向德国医学自然语言处理的领域特定BERT预训练策略

介绍 Ettin 重排序器系列

提交意见反馈