跨25种欧洲语言的Tokenizer税:领域不变性、跨语言少样本效应与乌克兰语惩罚

arXiv cs.CL 论文

摘要

本文在平行文本上测量了25种欧洲语言的分词器标记率,发现从英语到希腊语/马耳他语的差距达到2.5倍,其中乌克兰语承受15-18%的惩罚。研究证明了标记率排名的领域不变性,分析了子词碎片化,并评估了跨语言少样本效应。

arXiv:2605.24718v1 公告类型:新 摘要:分词器标记率(每个单词的token数量)给非英语NLP施加了隐藏成本。我们在平行文本上测量了十种基础模型在25种欧洲语言上的标记率,绘制了欧洲首个受控的“分词器税”地图。该税从英语(1.2 token/词)到希腊语/马耳他语(~3.1)跨越了2.5倍,并呈现清晰的层级:罗曼语族(1.5-1.7)、日耳曼语族(1.7-1.9)、斯拉夫语族(2.2-2.5)、乌拉尔/波罗的语族(2.7-3.0)。乌克兰语(2.7)比同源的斯拉夫语言多支付15-18%,反映了其在预训练数据中的代表性不足。标记率的排名在三种文本语域中具有领域不变性(rho > 0.97)。子词分析显示,高标记率的分词器会碎片化形态边界,而不是保留它们。对四种斯拉夫语言的跨语言少样本评估表明,少样本效应是模型内在的,而非语言依赖的。我们将所有测量结果作为公开数据集发布。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:06

# 涵盖24种欧洲语言的Token化税负:领域不变性、跨语言少样本效应与乌克兰语的额外负担
来源: https://arxiv.org/html/2605.24718
Volodymyr Ovcharov LEX AI Platform, legal\.org\.ua Kyiv, Ukraine

(2026年5月)

###### 摘要

分词器产出率(tokenizer fertility)——即每个单词对应的token数量——给非英语的自然语言处理(NLP)带来了隐性成本。我们针对平行文本,在25种欧洲语言上测量了十个基础模型的产出率,绘制了首张受控的欧洲大陆分词器税负地图。该税负从英语(1.2 tokens/词)到希腊语/马耳他语(约3.1)跨度达2.5倍,呈现清晰的层级:罗曼语族(1.5-1.7)、日耳曼语族(1.7-1.9)、斯拉夫语族(2.2-2.5)、乌拉尔语系/波罗的语族(2.7-3.0)。乌克兰语(2.7)比同源的斯拉夫语言多支付15-18%的税负,这反映了其在预训练数据中的代表性不足。产出率排名在三个文本语域间具有领域不变性(斯皮尔曼相关系数 ρ > 0.97)。一项子词分析揭示,高产出率的分词器在切分时破坏了形态边界,而非保留它们。对四种斯拉夫语言的跨语言少样本评估表明,少样本效应是模型固有的,而非语言所依赖的。我们以公共数据集的形式发布所有测量结果。

关键词: 分词器产出率,语言税负,跨语言评估,少样本提示,形态丰富语言,乌克兰语NLP,斯拉夫语言

## 1 引言

每一个token都意味着成本。当一个分词器将乌克兰语文本分割成每个词2.7个token,而对英语的处理仅为1.2个token时,相同的API调用成本就会高出两倍以上——这是一种隐性的“分词器税负”,惩罚了数十亿使用形态丰富语言的用户。Petrov等人 (2023) 和 Ahia等人 (2023) 记录了这种差异,但现有测量覆盖的是各自语言且文本异构,因此无法区分语言效应与内容效应。

本文提供了文献中缺失的四个方面。首先,一份受控的跨语言产出率地图:我们在25种欧洲语言的平行文本上测量了十个基础模型,将分词器的贡献与内容变化隔离开来。其次,一项领域不变性测试:我们比较了三种文本语域——法律、新闻和百科全书式文本——的产出率,以确定单个测量结果是否足以适用于所有应用场景。第三,一项子词分析,揭示了不同分词器如何分割形态复杂的乌克兰语单词,从机制上解释了产出率差距。第四,一项下游后果测试:我们评估了四种斯拉夫语言上的少样本分类,以确定分词器税负是否影响任务性能。

Ovcharov (2026) 表明,在乌克兰法律文本上,不同模型的分词器产出率变化可达1.6倍,并且少样本提示可能导致性能下降高达26个百分点。我们沿着跨语言维度扩展了这些发现,并增加了三个新的模型家族(GPT-4o, Gemma 2, DeepSeek V3):

1.  **领域不变性(实验1)**:产出率排名在三种文本语域(法律、新闻、百科全书式文本)中是稳定的,领域间的斯皮尔曼相关系数 ρ > 0.97。单个测量结果即可预测所有应用的成本。
2.  **跨语言产出率地图(实验2)**:对平行文本中25种欧盟语言的产出率进行测量,揭示了从英语(1.23)到希腊语/马耳他语(3.1)之间2.5倍的跨度。乌克兰语(2.66)比同源的斯拉夫语言多支付15-18%的税负。
3.  **子词分析(实验2b)**:形态分解分析显示,高产出率的分词器在任意的字节边界而非语素边界进行分割,从而解释了性能差距。
4.  **跨语言少样本(实验3)**:在SIB-200数据集上对乌克兰语、波兰语、俄语和捷克语进行少样本分类。效应是模型固有的:在一种语言中受益的同一个模型,在所有四种语言中都会受益。
5.  **语言能力(实验4)**:ULP基准测试(347个语法问题)测试产出率是否能预测语法准确性。

## 2 相关工作

### 2.1 少样本学习及其局限性

Brown等人 (2020) 建立了少样本上下文学习作为大型语言模型的核心能力。后续研究表明,少样本性能依赖于示例选择 (Liu等人, 2022)、格式一致性 (Min等人, 2022) 和标签分布 (Zhao等人, 2021)。Min等人 (2022) 证明,即使是随机标签也能提高性能,这表明示范主要指定任务格式而非输入-输出映射。

然而,这些研究主要关注英语。Lai等人 (2023) 发现不同语言间性能差异显著,但并未系统性地研究少样本效应。Ovcharov (2026) 记录了乌克兰法律文本上系统性的少样本性能下降,表明该效应取决于模型架构而非输入语言。我们的工作扩展了跨语言维度:测试相同的模式是否在四种斯拉夫语言和25种欧洲语言间成立。

### 2.2 分词器产出率与多语言公平性

Petrov等人 (2023) 将次优分词所带来的“语言税负”形式化,展示了不同语言间2-15倍的token成本变化。Ahia等人 (2023) 证明,对于等价内容,不同语言的API成本可能相差一个数量级。Rust等人 (2021) 表明,单语性能与预训练数据比例相关,而产出率是一个代理指标。

这些研究考察的是通用领域文本或单一语言。Niklaus等人 (2024) 引入了多语言法律基准测试LEXTREME,但未测量分词器产出率或少样本效应。替代方法完全绕过分词器:CANINE (Clark等人, 2022) 基于Unicode码位操作,ByT5 (Xue等人, 2022) 基于原始字节操作,以更长的序列为代价消除了产出率差异。Zheng等人 (2021) 表明,词汇重新分配可以将服务不足语言的产出率降低15-30%。我们提供了首次受控的跨语言比较:在平行文本上,针对25种语言比较六种分词器,将分词器的贡献与内容变化隔离开来,并测试了三种文本语域的领域不变性。

### 2.3 NLP中的形态丰富语言

乌克兰语、波兰语、俄语和捷克语是斯拉夫语言,具有丰富的屈折形态:7个格、语法性别以及广泛的动词变位。这种形态复杂性与子词分词器相互作用,可能产生更碎片化的表示,干扰上下文模式匹配。Conneau等人 (2020) 表明,多语言模型性能与预训练数据量相关,低资源语言受到不成比例的影响。Chaplynskyi (2023) 显示,多语言模型在乌克兰语上的表现持续低于英语,我们的跨语言实验将这一发现扩展到了少样本场景。

## 3 方法论

### 3.1 模型

我们将 Ovcharov (2026) 中的七个API模型扩展了三个额外模型,这些模型的分词器是公开可用的,总共达到十个(表2)。最初的七个模型通过AWS Bedrock API访问;三个新增模型使用其HuggingFace分词器和OpenAI的tiktoken库进行测量。我们通过在两种设置下都可用的三个模型的乌克兰新闻文本上,将本地分词器方法与API测量结果进行比较来验证(表1)。本地和API的产出率值相差在1.8%以内(平均绝对差值为0.030 tokens/词),证实了本地分词器测量是一种可靠且免费的有效替代方案。

表1:验证:API报告的vs本地分词器在乌克兰语SIB-200新闻文本上的产出率。Δ = 绝对差异。
表2:评估的模型。最初的七个通过AWS Bedrock(2026年4月-5月);三个新增(†)通过本地分词器。MoE = 混合专家模型;active = 每次前向传递的参数。

### 3.2 数据集

#### SIB-200
(Adelani等人, 2024) 是一个主题分类基准测试,涵盖205种语言,每种语言1000个示例,标注为7个类别。示例在不同语言间是并行的(相同的`index_id`),支持成对的跨语言比较。我们使用所有25种欧盟语言加乌克兰语进行产出率测量,并使用乌克兰语、波兰语、俄语和捷克语进行分类。

#### 乌克兰语维基百科
我们从`wikimedia/wikipedia`数据集(2023年11月转储)中抽取199篇文章,作为领域不变性测试(实验1)的百科全书式文本语域。

#### ULP
(Galeshchuk, 2024) 是一个由专家策划的基准测试,包含347个测试乌克兰语语法和正字法的多项选择题,由专业语言学家验证。

### 3.3 评估协议

所有评估均使用AWS Bedrock的`invoke_model` API,设置温度为0以获得确定性输出,保持与Ovcharov (2026) 完全一致。保留特定提供商的格式化方式:Meta模型使用Llama 3/4提示模板,Amazon Nova使用`messages-v1`模式,其余模型(Qwen, Mistral, NVIDIA)使用标准的`messages`格式。

#### 产出率测量
我们报告API报告的输入token数与空格分隔的单词数之间的平均比率。由于SIB-200文本较短(通常15-30个单词),在单个句子上测量产出率会受到系统提示开销的主导。遵循Ovcharov (2026) 的方法,我们将文本连接成大约6000个字符的块,平均每块约840个单词。对于欧盟法案,我们将每种语言的已对齐片段连接成相似大小的块。一个简单的提示(“重复第一个词”)确保测量捕捉到输入文本上的分词器行为,而非特定任务的输出。

#### 分类
对于SIB-200主题分类,我们报告测试集(所有语言共204个并行示例)上的准确率。少样本示例从训练集中抽取:每个类别一个示例(SIB-200共7个)。提示指示模型仅使用英语类别名称进行响应;通过子串匹配并配合乌克兰语到英语的标签映射进行归一化,以处理用乌克兰语响应的模型。

#### 语言能力
对于ULP,我们报告零样本模式下347个多项选择题的准确率,以及少样本模式下344个问题(其中3个作为演示)的准确率。提示以乌克兰语答案字母(А, Б, В, Г, Д)呈现每个问题,并指示模型仅用字母进行响应。

## 4 实验与结果

### 4.1 实验1:跨领域产出率

为了测试在法律文本上观察到的产出率分布是领域特定的还是分词器属性,我们在另外两个乌克兰语文本语域上测量了产出率:新闻(SIB-200,204个测试示例)和百科全书式文本(乌克兰语维基百科,199篇文章)。所有文本被连接成约6000字符的块,与Ovcharov (2026) 的协议相匹配。对于六个拥有公开可用分词器的模型,我们本地测量产出率;对于其余四个(Mistral Large 3, Nemotron, Nova Pro, Qwen3 235B),我们使用来自Ovcharov (2026) 的API测量结果。

表3展示了三个领域的结果。

表3:乌克兰语文本在三个语域上的跨领域分词器产出率。法律文本数据来自Ovcharov (2026)(API);新闻和维基百科通过本地分词器测量。模型按新闻产出率排序。† = 仅本地分词器(无API基准)。

显示出三种模式。首先,**产出率排名在所有三个领域间保持一致**:六个本地测量模型在新闻和百科全书式文本上的排名完全相同(斯皮尔曼相关系数 ρ = 1.0)。新闻文本的最大/最小比值为1.68倍,百科全书式文本为1.58倍,与Ovcharov (2026) 在法律文本上报告的1.61倍一致。其次,**百科全书式文本是产出率最高的领域**,对全部六个模型而言皆是如此,这反映了维基百科多样的词汇,包括专有名词、科技术语和音译的外语词。法律文本居中,新闻文本成本最低。第三,三个新模型可预测地融入了层级:**Gemma 2**(256K词汇表)尽管采用不同的分词器设计,其效率几乎与Llama家族持平;**GPT-4o**(200K词汇表)处于中间梯队;**DeepSeek V3**(128K词汇表)尽管词汇量大,但仍属于高产出率群体,这表明在基里尔字母文本上,词汇量大小本身并不能决定效率。

实际意义很明显:任何代表性乌克兰语文本的单次产出率测量就足以预测跨领域的成本排名。实践者无需为每个新应用重新测量产出率。

图1:乌克兰语三种文本语域的跨领域产出率。新闻和百科全书式文本之间的模型排名完全一致(ρ = 1.0)。由于词汇多样,百科全书式文本(维基百科)始终是成本最高的领域。

### 4.2 实验2:跨语言产出率

为了在欧裔语言景观中理解乌克兰语的降维打击,我们在SIB-200并行文本上,针对所有六个本地可用分词器测量了25种欧盟语言的产出率。由于SIB-200示例在不同语言间是并行的(相同的`index_id`),任何产出率差异都完全归因于分词器对该语言的处理方式,而非内容变化。

表4按语言族系呈现了平均产出率。图2展示了完整的25语言 × 6模型的热图。

表4:在SIB-200并行文本上,6个模型按语言族系划分的平均分词器产出率。每个族系内的语言按平均产出率排序。最小/最大列显示了模型间的范围。

结果揭示了由文字系统和形态复杂度驱动的清晰层级。具有分析形态的拉丁字母语言(英语、罗曼语族)效率最高(1.2-1.7平均tokens/词)。日耳曼语言聚集在1.7-1.9。斯拉夫语言范围为2.2-2.5。粘着语和形态复杂的语言(乌拉尔

相似文章

Compute Optimal Tokenization (2分钟阅读)

TLDR AI

本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。

语言模型中跨语言泛化的体外研究

arXiv cs.CL

本文引入了一个使用两种程序生成语言的体外框架,用于研究语言模型中的跨语言泛化,发现分词对可复用子结构的保留能力对于跨语言能力迁移比词汇相似性或数据平衡更为关键。

随机分词法提高模型鲁棒性

arXiv cs.CL

本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。