兼顾公平与效率:多语言大语言模型分词器的实证研究

arXiv cs.CL 论文

摘要

本文系统比较了涵盖11种东南亚语言的公平性分词器在多语言大语言模型中的表现,发现Parity-aware BPE在效率与公平之间取得了最佳平衡,并且跨语言公平性与分词效率并非根本冲突。

arXiv:2606.15044v1 Announce Type: new 摘要:多语言大语言模型(LLMs)依赖子词分词来桥接离散文本和连续神经表示。当前最先进的多语言LLM通常使用字节级的字节对编码(BPE)分词器,这些分词器在结构上偏向高资源语言和拉丁字母语言。对于低资源语言的使用者,尤其是东南亚地区的语言,这种偏差会增加推理成本并扩大跨语言能力差距。我们首次在涵盖11种东南亚语言的统一基准上对公平性分词器进行了系统比较。除了分词器层面的压缩效率和跨语言公平性分析,我们还通过使用相同训练数据、受控的15亿参数语言模型训练来评估下游任务性能。我们的结果表明,Parity-aware BPE位于效率-公平平衡的帕累托前沿,以有竞争力的成本实现了强大的压缩公平性。Morphology-Driven Byte Encoding由于提供形态更丰富的表示,在下游语义推理任务中表现最佳,但计算开销更高。Byte Latent Transformer在下游任务中表现不佳,可能是因为其架构假设与有限的低资源训练数据约束不匹配。总的来说,我们的发现表明跨语言公平性和分词效率并非根本矛盾,并为设计公平的多语言模型提供了实用指导。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:44

# 多语言大语言模型分词器的实证研究
来源:https://arxiv.org/html/2606.15044
Kieron Seven Jun Wei Lee¹ Muhammad Reza Qorib² Andrew Ivan Soegeng¹³ Hwee Tou Ng¹
¹新加坡国立大学 ²卡内基梅隆大学 ³SAP
[email protected], [email protected], [email protected], [email protected]

###### 摘要

多语言大语言模型(LLM)依赖子词分词来桥接离散文本与连续神经表示。最先进的多语言大语言模型通常使用字节级字节对编码(BPE)分词器,这类分词器在结构上偏向高资源语言和拉丁文字。对于未被充分代表语言的使用者,尤其是东南亚地区的使用者,这种偏见增加了推理成本,并扩大了跨语言能力差距。我们首次在涵盖11种东南亚语言的统一基准上,对公平分词器进行了系统性比较。除了分词器级别的压缩效率和跨语言公平性分析外,我们还通过使用相同训练数据训练1.5B参数的受控语言模型,评估了下游任务性能。结果表明,感知公平的BPE位于效率-公平性权衡的帕累托前沿,以具有竞争力的成本实现了强大的压缩公平性。形态驱动字节编码通过提供形态更丰富的表示,实现了最佳的语义推理性能,但计算开销更高。字节潜在变换器在下游任务上表现不佳,可能是因为其架构假设与低资源训练数据有限的条件不相符。综合来看,我们的发现表明,跨语言公平性和分词效率并非根本对立,并为设计公平的多语言模型提供了实用指导。¹¹源代码将在论文发表后公开。

效率与公平兼备:多语言大语言模型分词器的实证研究

Kieron Seven Jun Wei Lee¹ Muhammad Reza Qorib² Andrew Ivan Soegeng¹³ Hwee Tou Ng¹
¹新加坡国立大学 ²卡内基梅隆大学 ³SAP
[email protected], [email protected], [email protected], [email protected]

## 1 引言

多语言大语言模型(LLM)是跨语言信息访问的核心,但它们的性能在不同语言和文字之间仍然存在严重不均衡。导致这种差异的一个关键因素是分词:原始文本如何被分割成子词单元,这会影响不同语言下的模型容量、序列长度和有效上下文窗口(Petrov等,2023 (https://arxiv.org/html/2606.15044#bib.bib3))。

字节级字节对编码(BPE)(Sennrich等,2016 (https://arxiv.org/html/2606.15044#bib.bib27))是最先进大语言模型(包括GPT(OpenAI,2025 (https://arxiv.org/html/2606.15044#bib.bib19))和Llama(Touvron等,2023 (https://arxiv.org/html/2606.15044#bib.bib10))系列)中广泛使用的分词策略,因其简单性和压缩效率而受到青睐。字节级BPE将字符编码为UTF-8字节(Consortium,2011 (https://arxiv.org/html/2606.15044#bib.bib33)),并根据全局共现频率迭代学习字节对合并。这个过程会引入结构性偏见:一个拉丁字符编码为一个字节,而一个非拉丁字符则需要两个或更多字节。结合以英语为中心的预训练语料库,BPE的合并操作不成比例地偏向拉丁文字和高资源语言(Arnett等,2024 (https://arxiv.org/html/2606.15044#bib.bib4))。

这种偏见的实际后果非常显著。Petrov等(2023 (https://arxiv.org/html/2606.15044#bib.bib3))证明,GPT-4的字节级BPE分词器产生的序列长度差异高达15倍,其中中文需要比英语多1.9倍的token,越南语多2.5倍,缅甸语多11.7倍。对于高棉语和老挝语等低资源非拉丁语言的使用者来说,这些差异直接转化为更高的推理成本、受损的长上下文推理能力,以及降低的下游任务准确性(Tamang和Bora,2024 (https://arxiv.org/html/2606.15044#bib.bib31))。

已有几种分词器被提出以解决这些不公平问题。感知公平的字节对编码(Parity-aware BPE)重新平衡了不同文字间的合并频率(Foroutan等,2025 (https://arxiv.org/html/2606.15044#bib.bib17))。形态驱动字节编码(MYTE)将分割基于形态结构(Limisiewicz等,2024 (https://arxiv.org/html/2606.15044#bib.bib13))。字节潜在变换器(BLT)通过直接操作动态字节块(patches)来绕过固定词汇表(Pagnoni等,2025 (https://arxiv.org/html/2606.15044#bib.bib20))。每项工作都将其方法于BPE基线进行比较,报告了在公平性和多语言能力方面的改进。然而,这些方法从未在统一的实验条件下相互比较过。

在本文中,我们提出了一项基准测试研究,通过首次对公平分词器进行系统性分析来填补这一空白。我们比较了涵盖11种东南亚(SEA)语言:英语、缅甸语、中文、印尼语、高棉语、老挝语、马来语、他加禄语、泰米尔语、泰语和越南语。以字节级BPE为基线,并控制训练数据、词汇量大小和计算预算,我们评估了内在分词器指标,并通过从头开始训练1.5B参数仅解码器语言模型来检查下游LLM性能。我们的研究提供了公平分词方法的直接实证比较,为NLP从业者构建更公平的多语言大语言模型提供了可操作的见解。

## 2 相关工作

### 2.1 子词分词

子词分词已成为多语言大语言模型中的标准预处理步骤,用于将任何语言的文本统一分割为token。然而,当在异构多语言语料库上训练时,这些方法将词汇容量分配给高资源语言或拉丁文字语言,从而在词汇中嵌入了结构性偏见和不公平。

下游后果已有充分记录。Bostrom和Durrett(2020 (https://arxiv.org/html/2606.15044#bib.bib6))表明,BPE token经常偏离语言上合理的词素边界。最近,Selvamurugan等(2025 (https://arxiv.org/html/2606.15044#bib.bib2))通过归一化序列长度和子词产出率量化了跨语言分词不公平性,表明对于未被充分表示的文字,这种差距最为显著。这些发现促使我们超越全局频率优化,作为多语言分词器的主要设计标准。

### 2.2 感知公平的字节对编码

感知公平的BPE(PA BPE;Foroutan等,2025 (https://arxiv.org/html/2606.15044#bib.bib17))通过优化各语言中最差情况的压缩率来修改字节级BPE。每次合并迭代都会选择最能改善最差表现语言的那对,牺牲边际的全局效率以换取分词公平性。

该方法对现有BPE流程的实现改动最小。在一个30语言不平衡数据集上,它实现了0.011的基尼系数,而字节级BPE为0.064,同时在压缩方面保持竞争力,并在13个多语言基准测试中优于或匹配字节级BPE基线。

### 2.3 形态驱动字节编码

MYTE(Limisiewicz等,2024 (https://arxiv.org/html/2606.15044#bib.bib13))用基于词素的字节码取代了UTF-8基于字符的惯例,因为词素在不同语言中表现出比字符更一致的序列长度。它通过Morfessor 2.0(Smit等,2014 (https://arxiv.org/html/2606.15044#bib.bib30))学习每种语言的词素库,以实现平衡的形态覆盖,并将较短的字节序列分配给语言上有意义的单元。

与UTF-8相比,MYTE在所有测试的99种语言中都产生了更短的编码,提升范围从越南语和中文的1%到缅甸语的近70%。其相对于英语的最坏情况分词器公平性为1.7,而UTF-8为3.5。MyT5是BYTE(Xue等,2022 (https://arxiv.org/html/2606.15044#bib.bib35))的一个MYTE编码变体,与字节级对应版本相比,显示出了更低的跨语言困惑度差异。它在XTREME-UP(Ruder等,2023 (https://arxiv.org/html/2606.15044#bib.bib26))问答任务上达到了75.3的F1分数,而ByT5为73.2。

### 2.4 字节潜在变换器

BLT(Pagnoni等,2025 (https://arxiv.org/html/2606.15044#bib.bib20))完全消除了显式分词,由三个模块组成:一个生成块的轻量级局部编码器、一个处理块的大型潜在变换器,以及一个重构字节的轻量级局部解码器。一个熵模型驱动块分割,根据数据复杂性分配计算量。

BLT相对于Llama 3的原始分词器实现了推理FLOPs减少50%,且不牺牲下游任务性能(Grattafiori等,2024 (https://arxiv.org/html/2606.15044#bib.bib1))。通过避免从分词中产生静态词汇表,BLT规避了高资源语言token主导时出现的多语言不公平性,并在翻译成英语的任务上比Llama 3高出2个BLEU点(Papineni等,2002 (https://arxiv.org/html/2606.15044#bib.bib21))。

## 3 方法

我们将上述三种分词器家族与基线字节级BPE分词器进行比较。我们在相同数据集上训练所有分词器,以评估其效率和跨语言公平性。然后,我们使用这些分词器从头开始训练语言模型,并评估其下游任务性能。为了公平性和可重复性,数据大小以句子数和字节数报告,而不是token数。

### 3.1 训练数据

对于分词器训练,我们从多语言C4(mC4)(Xue等,2021 (https://arxiv.org/html/2606.15044#bib.bib36))中抽样了总共100万句子(3.5GB),涵盖11种东南亚语言。抽样按mC4中的语言比例进行随机无放回抽样,以近似实际的多语言数据分布。每种语言的句子数详见附录A.1 (https://arxiv.org/html/2606.15044#A1.SS1)。

对于语言模型训练,我们采用与Foroutan等(2025 (https://arxiv.org/html/2606.15044#bib.bib17))相同的训练数据集,并从FineWeb2(Penedo等,2025 (https://arxiv.org/html/2606.15044#bib.bib9))中抽样了1亿句子(203 GB)。该数据集大小与Foroutan等(2025 (https://arxiv.org/html/2606.15044#bib.bib17))和Limisiewicz等(2024 (https://arxiv.org/html/2606.15044#bib.bib13))训练其语言模型时使用的数据量相当。FineWeb2是已经应用了质量过滤的多语言网络语料库,我们在训练前没有进行进一步预处理。使用温度采样控制语言比例,τ=1.21以提升低资源语言的表示(Foroutan等,2025 (https://arxiv.org/html/2606.15044#bib.bib17))。细节详见附录A.2 (https://arxiv.org/html/2606.15044#A1.SS2)。

在可能的情况下控制词汇量大小,以便公平比较四种分词器。MYTE设计为每种语言有4096个词素,以避免过度分割。因此,我们在三种规模上训练分词器:每种语言4096、8192和12288个token,涵盖所有11种东南亚语言。对于MYTE,这对应于总词素库分别为45k、90k和135k词素。字节级BPE和感知公平BPE的词汇量大小在每种规模上与MYTE的总词素数匹配。

BLT基于块的表示不能直接比较,因为它不学习固定词汇表。遵循Pagnoni等(2025 (https://arxiv.org/html/2606.15044#bib.bib20))的方法,我们配置BLT的熵模型,使每个块的平均大小分别为4.5、6和8字节。

我们使用词汇量大小为90k的分词器来训练语言模型,使其接近大多数LLM分词器的100k–128k词汇量大小(Wegmann等,2025 (https://arxiv.org/html/2606.15044#bib.bib34))。对于BLT,我们采用平均块大小为4.5字节的熵模型,遵循Pagnoni等(2025 (https://arxiv.org/html/2606.15044#bib.bib20))的设置。请注意,BLT不是传统意义上的分词器,但为了方便比较,这里将其称为分词器。

### 3.2 实现细节

MYTE和基于BPE的算法的分词器训练以及语言模型训练数据的分词工作在单个AMD EPYC 9554P CPU(128线程)上完成。对于BLT,基于熵的分词器在4× NVIDIA H100 GPU上训练,语言模型训练数据集在8× NVIDIA H200 GPU上完成分词。分词后语言模型训练数据集的统计信息见表1 (https://arxiv.org/html/2606.15044#S3.T1)。

| 分词器(大小) | 用时(小时) | Token数(十亿) | 文件大小(GB) |
|---|---|---|---|
| BLT (4.5) | 33 | 422 | 204 |
| MYTE (90k) | 50 | 269 | 538 |
| PA BPE (90k) | 38 | 232 | 9 |
| BPE (90k) | 37 | 228 | 8 |

表1:四个分词器分词后语言模型训练数据集的统计信息。图例:大小 = BLT的块大小,MYTE的词素库大小,其他所有模型的词汇量大小;文件大小 = 分词后数据集文件的大小;PA BPE = 感知公平BPE;BPE = 字节级BPE。

语言模型训练在4–8× NVIDIA H100/H200 GPU上进行。为了实现计算成本的公平比较,训练时长转换为8× NVIDIA H200等效时长,见表2 (https://arxiv.org/html/2606.15044#S3.T2)。MYTE的训练成本最高,为300归一化小时,因为其token数显著较多(269B tokens),而字节级BPE最高效,为68小时(72B tokens)。此外,我们还按照各自分词器测量的相同token数(38B tokens)训练并比较了所有语言模型。这些实验得出了与在相同数据集上训练的模型相同的结论,因此为简洁起见,我们省略了这些实验。

| 模型(大小) | 用时(小时) | Token数(十亿) |
|---|---|---|
| BLT (4.5) | 160 | 42 |
| MYTE (90k) | 300 | 269 |
| PA BPE (90k) | 87 | 82 |
| BPE (90k) | 68 | 72 |

表2:语言模型训练统计信息。

### 3.3 评估指标

#### 3.3.1 内在指标

量化分词器效率和跨语言公平性需要与语言和模型架构无关的指标。我们从最近的文献中确定了三个这样的指标,并在下面提供简要描述。详细定义和公式可在附录B (https://arxiv.org/html/2606.15044#A2)中找到。

**分词器公平性**衡量的是给定语言每个句子的token数与英语的比值(Petrov等,2023 (https://arxiv.org/html/2606.15044#bib.bib3))。**接近1的分词器公平性**表明分词器在该语言和英语上施加了大致相等的计算成本。

**基尼系数**将收入不平等衡量指标应用于分词公平性领域(Foroutan等,2025 (https://arxiv.org/html/2606.15044#bib.bib17))。它量化了每种语言分词成本的分布,取值范围从0(完全平等)到1(最大不平等)。**较低的基尼系数**反映更公平的分词器。

**压缩率**衡量分词器压缩文本的效率(Foroutan等,2025 (https://arxiv.org/html/2606.15044#bib.bib17))。**较高的压缩率**表明分词器更高效,对相同文本产生更少的token。

相似文章

通过令牌剪枝优化韩语中心的大语言模型

arXiv cs.CL

本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。

Token 最大化

Reddit r/singularity

讨论在大型语言模型中最大化 Token 使用以提高效率和输出质量的策略与技术。

大规模语言模型的概率归因

arXiv cs.CL

本文提出了一种与模型无关的基于概率的令牌归因度量,利用贝叶斯规则反转下一个令牌的对数概率,捕捉模型对令牌序列的内部表示,并通过熵分析提高可解释性。