兼顾公平与效率：多语言大语言模型分词器的实证研究

arXiv cs.CL 2026/06/16 04:00 论文

multilingual tokenization large-language-models fairness efficiency empirical-study southeast-asian-languages

摘要

本文系统比较了涵盖11种东南亚语言的公平性分词器在多语言大语言模型中的表现，发现Parity-aware BPE在效率与公平之间取得了最佳平衡，并且跨语言公平性与分词效率并非根本冲突。

arXiv:2606.15044v1 Announce Type: new 摘要：多语言大语言模型（LLMs）依赖子词分词来桥接离散文本和连续神经表示。当前最先进的多语言LLM通常使用字节级的字节对编码（BPE）分词器，这些分词器在结构上偏向高资源语言和拉丁字母语言。对于低资源语言的使用者，尤其是东南亚地区的语言，这种偏差会增加推理成本并扩大跨语言能力差距。我们首次在涵盖11种东南亚语言的统一基准上对公平性分词器进行了系统比较。除了分词器层面的压缩效率和跨语言公平性分析，我们还通过使用相同训练数据、受控的15亿参数语言模型训练来评估下游任务性能。我们的结果表明，Parity-aware BPE位于效率-公平平衡的帕累托前沿，以有竞争力的成本实现了强大的压缩公平性。Morphology-Driven Byte Encoding由于提供形态更丰富的表示，在下游语义推理任务中表现最佳，但计算开销更高。Byte Latent Transformer在下游任务中表现不佳，可能是因为其架构假设与有限的低资源训练数据约束不匹配。总的来说，我们的发现表明跨语言公平性和分词效率并非根本矛盾，并为设计公平的多语言模型提供了实用指导。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:44

# 多语言大语言模型分词器的实证研究
来源：https://arxiv.org/html/2606.15044
Kieron Seven Jun Wei Lee¹ Muhammad Reza Qorib² Andrew Ivan Soegeng¹³ Hwee Tou Ng¹
¹新加坡国立大学 ²卡内基梅隆大学 ³SAP
[email protected], [email protected], [email protected], [email protected]

###### 摘要

多语言大语言模型（LLM）依赖子词分词来桥接离散文本与连续神经表示。最先进的多语言大语言模型通常使用字节级字节对编码（BPE）分词器，这类分词器在结构上偏向高资源语言和拉丁文字。对于未被充分代表语言的使用者，尤其是东南亚地区的使用者，这种偏见增加了推理成本，并扩大了跨语言能力差距。我们首次在涵盖11种东南亚语言的统一基准上，对公平分词器进行了系统性比较。除了分词器级别的压缩效率和跨语言公平性分析外，我们还通过使用相同训练数据训练1.5B参数的受控语言模型，评估了下游任务性能。结果表明，感知公平的BPE位于效率-公平性权衡的帕累托前沿，以具有竞争力的成本实现了强大的压缩公平性。形态驱动字节编码通过提供形态更丰富的表示，实现了最佳的语义推理性能，但计算开销更高。字节潜在变换器在下游任务上表现不佳，可能是因为其架构假设与低资源训练数据有限的条件不相符。综合来看，我们的发现表明，跨语言公平性和分词效率并非根本对立，并为设计公平的多语言模型提供了实用指导。¹¹源代码将在论文发表后公开。

效率与公平兼备：多语言大语言模型分词器的实证研究

Kieron Seven Jun Wei Lee¹ Muhammad Reza Qorib² Andrew Ivan Soegeng¹³ Hwee Tou Ng¹
¹新加坡国立大学 ²卡内基梅隆大学 ³SAP
[email protected], [email protected], [email protected], [email protected]

## 1 引言

多语言大语言模型（LLM）是跨语言信息访问的核心，但它们的性能在不同语言和文字之间仍然存在严重不均衡。导致这种差异的一个关键因素是分词：原始文本如何被分割成子词单元，这会影响不同语言下的模型容量、序列长度和有效上下文窗口（Petrov等，2023 (https://arxiv.org/html/2606.15044#bib.bib3)）。

字节级字节对编码（BPE）（Sennrich等，2016 (https://arxiv.org/html/2606.15044#bib.bib27)）是最先进大语言模型（包括GPT（OpenAI，2025 (https://arxiv.org/html/2606.15044#bib.bib19)）和Llama（Touvron等，2023 (https://arxiv.org/html/2606.15044#bib.bib10)）系列）中广泛使用的分词策略，因其简单性和压缩效率而受到青睐。字节级BPE将字符编码为UTF-8字节（Consortium，2011 (https://arxiv.org/html/2606.15044#bib.bib33)），并根据全局共现频率迭代学习字节对合并。这个过程会引入结构性偏见：一个拉丁字符编码为一个字节，而一个非拉丁字符则需要两个或更多字节。结合以英语为中心的预训练语料库，BPE的合并操作不成比例地偏向拉丁文字和高资源语言（Arnett等，2024 (https://arxiv.org/html/2606.15044#bib.bib4)）。

这种偏见的实际后果非常显著。Petrov等（2023 (https://arxiv.org/html/2606.15044#bib.bib3)）证明，GPT-4的字节级BPE分词器产生的序列长度差异高达15倍，其中中文需要比英语多1.9倍的token，越南语多2.5倍，缅甸语多11.7倍。对于高棉语和老挝语等低资源非拉丁语言的使用者来说，这些差异直接转化为更高的推理成本、受损的长上下文推理能力，以及降低的下游任务准确性（Tamang和Bora，2024 (https://arxiv.org/html/2606.15044#bib.bib31)）。

已有几种分词器被提出以解决这些不公平问题。感知公平的字节对编码（Parity-aware BPE）重新平衡了不同文字间的合并频率（Foroutan等，2025 (https://arxiv.org/html/2606.15044#bib.bib17)）。形态驱动字节编码（MYTE）将分割基于形态结构（Limisiewicz等，2024 (https://arxiv.org/html/2606.15044#bib.bib13)）。字节潜在变换器（BLT）通过直接操作动态字节块（patches）来绕过固定词汇表（Pagnoni等，2025 (https://arxiv.org/html/2606.15044#bib.bib20)）。每项工作都将其方法于BPE基线进行比较，报告了在公平性和多语言能力方面的改进。然而，这些方法从未在统一的实验条件下相互比较过。

在本文中，我们提出了一项基准测试研究，通过首次对公平分词器进行系统性分析来填补这一空白。我们比较了涵盖11种东南亚（SEA）语言：英语、缅甸语、中文、印尼语、高棉语、老挝语、马来语、他加禄语、泰米尔语、泰语和越南语。以字节级BPE为基线，并控制训练数据、词汇量大小和计算预算，我们评估了内在分词器指标，并通过从头开始训练1.5B参数仅解码器语言模型来检查下游LLM性能。我们的研究提供了公平分词方法的直接实证比较，为NLP从业者构建更公平的多语言大语言模型提供了可操作的见解。

## 2 相关工作

### 2.1 子词分词

子词分词已成为多语言大语言模型中的标准预处理步骤，用于将任何语言的文本统一分割为token。然而，当在异构多语言语料库上训练时，这些方法将词汇容量分配给高资源语言或拉丁文字语言，从而在词汇中嵌入了结构性偏见和不公平。

下游后果已有充分记录。Bostrom和Durrett（2020 (https://arxiv.org/html/2606.15044#bib.bib6)）表明，BPE token经常偏离语言上合理的词素边界。最近，Selvamurugan等（2025 (https://arxiv.org/html/2606.15044#bib.bib2)）通过归一化序列长度和子词产出率量化了跨语言分词不公平性，表明对于未被充分表示的文字，这种差距最为显著。这些发现促使我们超越全局频率优化，作为多语言分词器的主要设计标准。

### 2.2 感知公平的字节对编码

感知公平的BPE（PA BPE；Foroutan等，2025 (https://arxiv.org/html/2606.15044#bib.bib17)）通过优化各语言中最差情况的压缩率来修改字节级BPE。每次合并迭代都会选择最能改善最差表现语言的那对，牺牲边际的全局效率以换取分词公平性。

该方法对现有BPE流程的实现改动最小。在一个30语言不平衡数据集上，它实现了0.011的基尼系数，而字节级BPE为0.064，同时在压缩方面保持竞争力，并在13个多语言基准测试中优于或匹配字节级BPE基线。

### 2.3 形态驱动字节编码

MYTE（Limisiewicz等，2024 (https://arxiv.org/html/2606.15044#bib.bib13)）用基于词素的字节码取代了UTF-8基于字符的惯例，因为词素在不同语言中表现出比字符更一致的序列长度。它通过Morfessor 2.0（Smit等，2014 (https://arxiv.org/html/2606.15044#bib.bib30)）学习每种语言的词素库，以实现平衡的形态覆盖，并将较短的字节序列分配给语言上有意义的单元。

与UTF-8相比，MYTE在所有测试的99种语言中都产生了更短的编码，提升范围从越南语和中文的1%到缅甸语的近70%。其相对于英语的最坏情况分词器公平性为1.7，而UTF-8为3.5。MyT5是BYTE（Xue等，2022 (https://arxiv.org/html/2606.15044#bib.bib35)）的一个MYTE编码变体，与字节级对应版本相比，显示出了更低的跨语言困惑度差异。它在XTREME-UP（Ruder等，2023 (https://arxiv.org/html/2606.15044#bib.bib26)）问答任务上达到了75.3的F1分数，而ByT5为73.2。

### 2.4 字节潜在变换器

BLT（Pagnoni等，2025 (https://arxiv.org/html/2606.15044#bib.bib20)）完全消除了显式分词，由三个模块组成：一个生成块的轻量级局部编码器、一个处理块的大型潜在变换器，以及一个重构字节的轻量级局部解码器。一个熵模型驱动块分割，根据数据复杂性分配计算量。

BLT相对于Llama 3的原始分词器实现了推理FLOPs减少50%，且不牺牲下游任务性能（Grattafiori等，2024 (https://arxiv.org/html/2606.15044#bib.bib1)）。通过避免从分词中产生静态词汇表，BLT规避了高资源语言token主导时出现的多语言不公平性，并在翻译成英语的任务上比Llama 3高出2个BLEU点（Papineni等，2002 (https://arxiv.org/html/2606.15044#bib.bib21)）。

## 3 方法

我们将上述三种分词器家族与基线字节级BPE分词器进行比较。我们在相同数据集上训练所有分词器，以评估其效率和跨语言公平性。然后，我们使用这些分词器从头开始训练语言模型，并评估其下游任务性能。为了公平性和可重复性，数据大小以句子数和字节数报告，而不是token数。

### 3.1 训练数据

对于分词器训练，我们从多语言C4（mC4）（Xue等，2021 (https://arxiv.org/html/2606.15044#bib.bib36)）中抽样了总共100万句子（3.5GB），涵盖11种东南亚语言。抽样按mC4中的语言比例进行随机无放回抽样，以近似实际的多语言数据分布。每种语言的句子数详见附录A.1 (https://arxiv.org/html/2606.15044#A1.SS1)。

对于语言模型训练，我们采用与Foroutan等（2025 (https://arxiv.org/html/2606.15044#bib.bib17)）相同的训练数据集，并从FineWeb2（Penedo等，2025 (https://arxiv.org/html/2606.15044#bib.bib9)）中抽样了1亿句子（203 GB）。该数据集大小与Foroutan等（2025 (https://arxiv.org/html/2606.15044#bib.bib17)）和Limisiewicz等（2024 (https://arxiv.org/html/2606.15044#bib.bib13)）训练其语言模型时使用的数据量相当。FineWeb2是已经应用了质量过滤的多语言网络语料库，我们在训练前没有进行进一步预处理。使用温度采样控制语言比例，τ=1.21以提升低资源语言的表示（Foroutan等，2025 (https://arxiv.org/html/2606.15044#bib.bib17)）。细节详见附录A.2 (https://arxiv.org/html/2606.15044#A1.SS2)。

在可能的情况下控制词汇量大小，以便公平比较四种分词器。MYTE设计为每种语言有4096个词素，以避免过度分割。因此，我们在三种规模上训练分词器：每种语言4096、8192和12288个token，涵盖所有11种东南亚语言。对于MYTE，这对应于总词素库分别为45k、90k和135k词素。字节级BPE和感知公平BPE的词汇量大小在每种规模上与MYTE的总词素数匹配。

BLT基于块的表示不能直接比较，因为它不学习固定词汇表。遵循Pagnoni等（2025 (https://arxiv.org/html/2606.15044#bib.bib20)）的方法，我们配置BLT的熵模型，使每个块的平均大小分别为4.5、6和8字节。

我们使用词汇量大小为90k的分词器来训练语言模型，使其接近大多数LLM分词器的100k–128k词汇量大小（Wegmann等，2025 (https://arxiv.org/html/2606.15044#bib.bib34)）。对于BLT，我们采用平均块大小为4.5字节的熵模型，遵循Pagnoni等（2025 (https://arxiv.org/html/2606.15044#bib.bib20)）的设置。请注意，BLT不是传统意义上的分词器，但为了方便比较，这里将其称为分词器。

### 3.2 实现细节

MYTE和基于BPE的算法的分词器训练以及语言模型训练数据的分词工作在单个AMD EPYC 9554P CPU（128线程）上完成。对于BLT，基于熵的分词器在4× NVIDIA H100 GPU上训练，语言模型训练数据集在8× NVIDIA H200 GPU上完成分词。分词后语言模型训练数据集的统计信息见表1 (https://arxiv.org/html/2606.15044#S3.T1)。

| 分词器（大小） | 用时（小时） | Token数（十亿） | 文件大小（GB） |
|---|---|---|---|
| BLT (4.5) | 33 | 422 | 204 |
| MYTE (90k) | 50 | 269 | 538 |
| PA BPE (90k) | 38 | 232 | 9 |
| BPE (90k) | 37 | 228 | 8 |

表1：四个分词器分词后语言模型训练数据集的统计信息。图例：大小 = BLT的块大小，MYTE的词素库大小，其他所有模型的词汇量大小；文件大小 = 分词后数据集文件的大小；PA BPE = 感知公平BPE；BPE = 字节级BPE。

语言模型训练在4–8× NVIDIA H100/H200 GPU上进行。为了实现计算成本的公平比较，训练时长转换为8× NVIDIA H200等效时长，见表2 (https://arxiv.org/html/2606.15044#S3.T2)。MYTE的训练成本最高，为300归一化小时，因为其token数显著较多（269B tokens），而字节级BPE最高效，为68小时（72B tokens）。此外，我们还按照各自分词器测量的相同token数（38B tokens）训练并比较了所有语言模型。这些实验得出了与在相同数据集上训练的模型相同的结论，因此为简洁起见，我们省略了这些实验。

| 模型（大小） | 用时（小时） | Token数（十亿） |
|---|---|---|
| BLT (4.5) | 160 | 42 |
| MYTE (90k) | 300 | 269 |
| PA BPE (90k) | 87 | 82 |
| BPE (90k) | 68 | 72 |

表2：语言模型训练统计信息。

### 3.3 评估指标

#### 3.3.1 内在指标

量化分词器效率和跨语言公平性需要与语言和模型架构无关的指标。我们从最近的文献中确定了三个这样的指标，并在下面提供简要描述。详细定义和公式可在附录B (https://arxiv.org/html/2606.15044#A2)中找到。

**分词器公平性**衡量的是给定语言每个句子的token数与英语的比值（Petrov等，2023 (https://arxiv.org/html/2606.15044#bib.bib3)）。**接近1的分词器公平性**表明分词器在该语言和英语上施加了大致相等的计算成本。

**基尼系数**将收入不平等衡量指标应用于分词公平性领域（Foroutan等，2025 (https://arxiv.org/html/2606.15044#bib.bib17)）。它量化了每种语言分词成本的分布，取值范围从0（完全平等）到1（最大不平等）。**较低的基尼系数**反映更公平的分词器。

**压缩率**衡量分词器压缩文本的效率（Foroutan等，2025 (https://arxiv.org/html/2606.15044#bib.bib17)）。**较高的压缩率**表明分词器更高效，对相同文本产生更少的token。

兼顾公平与效率：多语言大语言模型分词器的实证研究

相似文章

大型语言模型中的解释公平性：关于LLM在不同人口群体中如何证明决策的实证分析

通过令牌剪枝优化韩语中心的大语言模型

Token 最大化

跨25种欧洲语言的Tokenizer税：领域不变性、跨语言少样本效应与乌克兰语惩罚

大规模语言模型的概率归因

提交意见反馈