SEA-Embedding：面向东南亚的开放可复现文本嵌入

arXiv cs.CL 2026/06/03 04:00 论文

multilingual embeddings southeast-asia nlp reproducibility open-source text-embedding

摘要

SEA-Embedding 提出了一个完全开放且可复现的东南亚语言文本嵌入流水线，仅使用公开数据训练，在 SEA-BED 基准测试上取得了最先进的结果。

arXiv:2606.03027v1 Announce Type: new Abstract: 文本嵌入是许多下游应用的基础，因此其鲁棒性对于实际 NLP 至关重要。然而，大多数最新的先进嵌入模型由于依赖封闭或未公开的训练数据而无法复现，并且对于东南亚语言而言仍不够鲁棒。我们提出了 SEA-Embedding，这是一个完全开放且可复现的东南亚语言文本嵌入流水线，仅使用公开可用数据训练，并以此研究了鲁棒嵌入设计的三个核心因素：数据组成、训练目标和基础编码器初始化。SEA-Embedding 在 SEA-BED 上取得了最先进的结果，同时实现了对该地区鲁棒文本嵌入的系统性和可复现分析。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:36

# 面向东南亚的开放与可复现文本嵌入
来源: https://arxiv.org/html/2606.03027
Peerat Limkonchotiwat¹, Raymond Ng¹, Sarana Nutanong², Jian Gang Ngui¹ ¹AI Singapore²信息科学与技术学院，VISTEC peerat@aisingapore\.org GitHub (https://github.com/aisingapore/SEA-LION-Embedding)[![[未标注图片]](https://arxiv.org/html/2606.03027v1/hf-logo.png)Hugging Face](https://huggingface.co/collections/aisingapore/sea-lion-modernbert-and-embedding)

###### 摘要

文本嵌入是众多下游应用的基础，其鲁棒性对现实世界中的自然语言处理至关重要。然而，当前最先进的嵌入模型大多不可复现，因为它们依赖于封闭或未公开的训练数据，并且对东南亚语言的鲁棒性仍显不足。我们提出SEA-Embedding，一个完全开放且可复现的东南亚语言文本嵌入流程，该流程仅使用公开可用数据进行训练，并借此研究鲁棒嵌入设计的三个核心因素：数据构成、训练目标以及基础编码器初始化。SEA-Embedding在SEA-BED上取得了最先进的结果，同时能够对该地区鲁棒文本嵌入进行系统且可复现的分析。

SEA-Embedding: 面向东南亚的开放与可复现文本嵌入

Peerat Limkonchotiwat¹, Raymond Ng¹, Sarana Nutanong², Jian Gang Ngui¹¹AI Singapore²信息科学与技术学院，VISTECpeerat@aisingapore\.orgGitHub (https://github.com/aisingapore/SEA-LION-Embedding)[![[未标注图片]](https://arxiv.org/html/2606.03027v1/hf-logo.png)Hugging Face](https://huggingface.co/collections/aisingapore/sea-lion-modernbert-and-embedding)

## 1 引言

文本嵌入旨在构建一个能跨任务、跨语言保持语义的语义空间。对于东南亚（SEA）语言而言，语言多样性很高，且高资源场景下的成果可能无法直接迁移（Singh 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib12)；Susanto 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib13)）。SEA-BED（Ponwitayarat 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib8)）的最新结果表明，在MMTEB（Enevoldsen 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib3)）等全局基准上表现强劲的模型，在东南亚评估中仍然落后，这促使我们针对该地区的鲁棒、可复现嵌入进行专项研究。

以往的工作通过以下方式改进多语言文本嵌入：(i) 扩大或多样化训练数据（Wang 等人，2024b (https://arxiv.org/html/2606.03027#bib.bib15),c (https://arxiv.org/html/2606.03027#bib.bib16)；Zhang 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib18)；Hu 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib6)；Akram 等人，2026 (https://arxiv.org/html/2606.03027#bib.bib1)），(ii) 强化对比/蒸馏目标（Chen 等人，2024 (https://arxiv.org/html/2606.03027#bib.bib2)；Wang 等人，2024c (https://arxiv.org/html/2606.03027#bib.bib16)；Hu 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib6)；Zhao 等人，2026 (https://arxiv.org/html/2606.03027#bib.bib19)），以及 (iii) 从更强的预训练编码器初始化（Wang 等人，2024a (https://arxiv.org/html/2606.03027#bib.bib14),c (https://arxiv.org/html/2606.03027#bib.bib16)）。这些共同对应三个核心问题：模型从什么学习、如何学习，以及从何处开始。

本文中，我们介绍SEA-Embedding：一个透明、可复现的东南亚语言文本嵌入流程，仅使用公开数据（2.45亿文本对；1400万指令文本）进行训练。表1 (https://arxiv.org/html/2606.03027#S1.T1)将先前高性能多语言嵌入模型与我们的开放流程进行了对比，从而支持系统、受控的比较。这种透明性在实践中至关重要：开放的代码公开了目标和训练细节，开放的数据支持重新训练和消融实验，而可复现的环境使比较和故障分析变得可靠。

表1:与先前多语言文本嵌入的比较（所有模型均为0.6B参数）。SEA-Embedding在SEA-BED语言平均得分上取得最佳成绩，同时提供开放代码、开放数据和完全可复现的实验环境。利用这一流程，我们研究了鲁棒性——即在基准测试中跨语言和任务类型的性能一致性。我们分析了三个设计因素：数据构成、目标设计以及不同预训练条件下的基础编码器初始化。我们的模型在留出测试集SEA-BED基准上取得了最先进的结果，且实验完全可复现。

我们的贡献包括：(i) 可复现框架：SEA-Embedding是一个仅使用公开数据的流程，发布了用于重新训练和受控比较的产物。(ii) 实证洞察：我们分离了数据构成、目标设计和基础编码器初始化对东南亚鲁棒性的影响。(iii) 鲁棒性能：我们在SEA-BED上取得了最先进的结果，并提炼出一个可复用的设计配方。

## 2 提出的SEA-Embedding流程

图1 (https://arxiv.org/html/2606.03027#S2.F1)展示了SEA-Embedding的训练流程。该结构作为一个概念框架，用于系统检验鲁棒文本嵌入的三个关键组成部分：RQ1：数据构成、RQ2：目标设计、RQ3：基础模型。

参见图注图1：SEA-Embedding概览### 2.1 RQ1：数据构成

我们提出，鲁棒的东南亚文本嵌入需要训练数据兼具广泛的区域覆盖和面向任务的监督。广泛的覆盖有助于共享的语义空间捕捉东南亚语言间的语言变异，而面向任务的监督则支持多样化的下游应用。因此，我们使用两类数据：通用数据集（2.45亿样本）用于SEA语言覆盖，以及指令数据集（1400万样本）用于任务感知和泛化。对于通用数据集，我们使用SEA语言资源，如FineTranslations（Penedo 等人，2026 (https://arxiv.org/html/2606.03027#bib.bib7)）、CCMatrix（Schwenk 等人，2021 (https://arxiv.org/html/2606.03027#bib.bib11)）等。对于指令数据集，我们使用多语言下游数据集，如MIRACL（Zhang 等人，2023 (https://arxiv.org/html/2606.03027#bib.bib17)）、SEA-Instruct (https://huggingface.co/datasets/aisingapore/SEA-Instruct-2602)等，并在前面加上任务特定指令以提升任务感知和泛化能力。两种数据类型都按照原始数据集的格式，格式化为三元组（锚点、正样本、负样本）或文本对（锚点、正样本）。

表2：所有模型在SEA-BED上的语言平均得分。†\\dagger表示使用McNemar检验，相对于各组之前的SOTA有显著改进。任务级别的结果在附录C (https://arxiv.org/html/2606.03027#A3)中报告。
### 2.2 RQ2：目标设计

我们提出，鲁棒的东南亚文本嵌入需要同时具备局部区分能力和全局一致性。因此，我们采用两阶段目标：对称对比学习（SCL）和相似度分布匹配（SDM）。

#### 2.2.1 对称对比学习（SCL）

SCL学习跨语言和跨下游任务鲁棒的文本嵌入。与先前依赖普通对比学习的工作（Chen 等人，2024 (https://arxiv.org/html/2606.03027#bib.bib2)；Wang 等人，2024c (https://arxiv.org/html/2606.03027#bib.bib16)；Hu 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib6)；Zhao 等人，2026 (https://arxiv.org/html/2606.03027#bib.bib19)）不同，我们采用对称InfoNCE（Günther 等人，2024 (https://arxiv.org/html/2606.03027#bib.bib5)）并加入焦点重加权。我们将hs(·)定义为编码器，它通过最后一层的平均池化将输入文本映射为d维嵌入。对于每个训练样本，我们假设一个锚点(a)、一个正样本(p)以及可选的负样本(n)。给定一个包含N个三元组{(ai,pi,ni)}i=1N的批次，我们从hs(·)：X→Rd获得l2归一化的嵌入zia、zip以及（当可用时）zin。Lscl定义如下：

\[
\mathcal{L}_{scl} = -\frac{1}{2N}\sum_{i}^{N} w_i \Bigg[ \log\frac{e^{s(z_i^a, z_i^p)}}{\sum_j^N e^{s(z_i^a, z_j^p)} + e^{s(z_i^a, z_i^n)}} + \log\frac{e^{s(z_i^p, z_i^a)}}{\sum_j^N e^{s(z_i^p, z_j^a)}} \Bigg],
\]

其中s(u,v) = u^⊤ v / τ，τ是温度参数，wi = (1−ji)^γ是焦点权重（Zhao 等人，2026 (https://arxiv.org/html/2606.03027#bib.bib19)），ji表示分配给锚点-正样本对的softmax概率。当γ=0时，损失退化为均匀加权，而较大的γ则更强调困难样本。我们首先在通用文本上训练，然后在指令文本上以相同目标继续训练。如果没有显式负样本，损失就退化为标准批次内对称对比目标。

#### 2.2.2 相似度分布匹配（SDM）

我们进一步通过相似度分布匹配（SDM）改进SEA-Embedding。与先前的文本嵌入蒸馏（Akram 等人，2026 (https://arxiv.org/html/2606.03027#bib.bib1)；Zhao 等人，2026 (https://arxiv.org/html/2606.03027#bib.bib19)）不同，SDM显式地匹配学生和教师在一个大型记忆队列上的相似度分布。设hs(·)和ht(·)分别表示学生和教师编码器。为了匹配教师嵌入大小，我们在学生输出上添加一个线性投影。此外，我们使用第2.2.1节中的模型作为学生模型，并使用Wang等人（2024c (https://arxiv.org/html/2606.03027#bib.bib16)）作为教师模型。我们维护一个大小为65,536的先进先出记忆队列P。在每个训练步骤，我们通过使用ht(·)对正样本(p)和负样本(n)进行编码来更新P，将它们加入队列并移除最旧的条目。然后，我们计算锚点(a)与P之间的相似度分布：

\[
[D(h(a), \mathcal{P}, \tau)]_k = \frac{e^{s(h(a), \mathbf{p}_k)/\tau}}{\sum_{\mathbf{p}_k \in \mathcal{P}} e^{s(h(a), \mathbf{p}_k)/\tau}}
\]

其中pk∈P表示队列中第k个条目。我们将学生和教师的相似度分布定义为Ds = D(hs(a), P, τs)和Dt = D(ht(a), P, τt)，且τs<τt，使得学生分布更尖锐，从而让学生模型更难匹配该分布。然后，我们通过KL散度让学生分布模仿教师分布：Lsdm = KL(Dt ∥ Ds)。

#### 2.2.3 与先前工作的比较

先前的文本嵌入（Wang 等人，2024c (https://arxiv.org/html/2606.03027#bib.bib16)；Hu 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib6)；Zhao 等人，2026 (https://arxiv.org/html/2606.03027#bib.bib19)）通常使用锚点-正样本优化的标准对比学习以及单向批次内负样本。相比之下，Lscl使用对称查询和焦点重加权，以更好地利用批次样本并强调困难对。Lsdm进一步在一个65k样本的记忆队列P上匹配软相似度分布，比单独批次级别对比学习更鼓励全局一致的嵌入空间。然而，Lsdm需要一个强教师编码器，因为不可靠的教师相似度可能会破坏训练稳定性。因此，我们仅将Lsdm用于知识蒸馏，而不是取代Lscl。

### 2.3 RQ3：基础模型

对于RQ3，我们测试我们的流程是否能够迁移到不同的起始编码器。我们在300M和600M模型上实例化，即SEA-LION-ModernBERT-300M (https://huggingface.co/aisingapore/SEA-LION-ModernBERT-300M)和E5-Large（Wang 等人，2024a (https://arxiv.org/html/2606.03027#bib.bib14)），以研究效率-性能权衡。第3节 (https://arxiv.org/html/2606.03027#S3)进一步评估了XLMR-Large、mmBERT-base和SEA-LION-ModernBERT-base，以检验收益是否能够泛化到特定初始化之外。数据集细节、任务特定指令、数据泄露和超参数在附录A (https://arxiv.org/html/2606.03027#A1)和B (https://arxiv.org/html/2606.03027#A2)中提供。

## 3 实验设置与结果

基准测试。我们在SEA-BED（Ponwitayarat 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib8)）上评估鲁棒性，这是一个针对SEA-Embedding的域外基准，涵盖10种东南亚语言、9种任务类型和169个数据集。我们报告平均语言和任务级别得分。英语（MTEB）和中文（CMTEB）结果在附录D (https://arxiv.org/html/2606.03027#A4)中给出。

竞争方法。我们将SEA-Embedding与SEA-BED排行榜上的顶级模型进行比较：multilingual-e5-large-instruct（Wang 等人，2024c (https://arxiv.org/html/2606.03027#bib.bib16)）、Qwen3-Embedding-0.6和-8B（Zhang 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib18)）、Cohere embed-multilingual-v3.0、BGE-M3 (Dense)（Chen 等人，2024 (https://arxiv.org/html/2606.03027#bib.bib2)）、embeddinggemma-300m（Schechter Vera 等人，2025 (https://arxiv.org/html/2606.03027#bib.bib10)）、harrier-oss-v1-270M (https://huggingface.co/microsoft/harrier-oss-v1-270m)和0.6B (https://huggingface.co/microsoft/harrier-oss-v1-0.6b)，以及jina-embeddings-v5（Akram 等人，2026 (https://arxiv.org/html/2606.03027#bib.bib1)）。

### 3.1 主要结果

表2 (https://arxiv.org/html/2606.03027#S2.T2)报告了小模型（≤300M）和大模型（>300M）的结果。对于小模型，SEA-Embedding-ModernBERT-300M在平均得分上优于harrier-oss-v1-270M（0.760 vs. 0.753），在10种SEA语言中的8种上取得了最佳结果，在低资源语言（如老挝语和高棉语）上尤其取得了更大增益。此外，与embeddinggemma-300m相比，该模型在印度尼西亚语、泰语和越南语等高资源SEA语言上表现良好，而在资源受限的SEA语言（包括缅甸语、高棉语和老挝语）上表现更强。

对于大模型，SEA-Embedding-E5-Large-600M取得了最佳总体结果，平均得分为0.800，相比multilingual-e5-large-instruct（0.789）有所改进，并超越了更大的Qwen3-Embedding-8B。它在10种语言中的9种上优于multilingual-e5-large-instruct。与第二好的模型harrier-oss-v1-0.6b相比，我们的模型实现了更高的平均

相似文章

SEA-NLI：以自然语言推理透视东南亚文化理解

arXiv cs.CL

介绍了SEA-NLI，一个基于文化的自然语言推理基准，涵盖八个东南亚国家，揭示了LLMs在特定文化知识上的低性能，尤其是在语言和科学/技术方面。结果表明，文化感知提示有所帮助，但思维链提升有限。

EmbGen：利用重组语料库进行教学

arXiv cs.CL

EmbGen 是一种合成数据生成流水线，它通过嵌入相似度将语料库重组为实体-描述配对，从而生成多样化的问答对，用于在专业领域微调小型语言模型，显著提升了事实准确性。

介绍文本和代码嵌入

OpenAI Blog

OpenAI 推出了新的嵌入 API 端点，可以将文本和代码转换为数值向量表示，用于语义搜索、聚类和分类任务。这些模型在标准基准测试上取得了最先进的效果，包括代码搜索性能相比之下提升了 20%。

通过对比预训练的文本和代码嵌入

OpenAI Blog

# 通过对比预训练的文本和代码嵌入源：[https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/](https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/) ## 摘要文本嵌入是许多应用中的有用特征，例如语义搜索和计算文本相似性。以往的工作通常训练针对不同用例定制的模型，在数据集选择、训练目标和模型架构方面各不相同。在这

对 Google Embeddings 2 与开源模型在多语言稠密检索和 RAG 系统中的基准测试

arXiv cs.CL

本文对 Google Embeddings 2 与五个开源模型在多语言稠密检索和 RAG 系统中进行了基准测试，发现 GE2 在准确性上表现最佳但速度较慢，而 mE5-L 作为低延迟的竞争性替代方案。

相似文章

SEA-NLI：以自然语言推理透视东南亚文化理解

EmbGen：利用重组语料库进行教学

介绍文本和代码嵌入

通过对比预训练的文本和代码嵌入

对 Google Embeddings 2 与开源模型在多语言稠密检索和 RAG 系统中的基准测试

提交意见反馈