QuechuaTok:形态边界准确率作为黏着型低资源语言分词器评估的必要指标

arXiv cs.CL 论文

摘要

本文介绍了QuechuaTok,一个用于评估南克丘亚语分词策略的基准,并引入了形态边界准确率(MorphAcc)作为必要指标。结果表明,BPE实现了低碎片率但形态准确性差,而基于形态感知的PRPE分词器达到了83%的MorphAcc,表明仅凭碎片率不足以评估黏着型语言的分词器。

arXiv:2606.23943v1 公告类型:新提交 摘要:分词是NLP流程中的基础步骤,但诸如碎片率等标准评估指标未能捕捉黏着型语言的形态正确性。我们提出了QuechuaTok,一个系统性的基准,比较了四种分词策略——BPE、Unigram LM、WordPiece和基于形态感知的PRPE分词器——针对南克丘亚语(quz),这是一种南美洲800万至1000万人使用的低资源黏着型语言。使用一个20万句语料库和SQUOIA有限状态形态分析器(Rios, 2016)作为银标准,我们评估了三个指标:碎片率、未登录词率和形态边界准确率(MorphAcc)。我们的结果显示,BPE通过记忆表面词形实现了最低的碎片率(在16k词表下为1.636),但仅有6.67%的MorphAcc。PRPE达到了83.33%的MorphAcc——所有系统中最高——表明仅凭碎片率不足以评估黏着型语言的分词器。所有代码和模型公开于 kaggle.com/code/macmaky/quechuatok
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:44

# 形态边界准确率:黏着型低资源语言分词器评估的必要指标
来源:https://arxiv.org/html/2606.23943

###### 摘要

分词是自然语言处理流水线中的基础步骤,然而对于黏着型语言,标准评估指标(如产出率)无法捕捉形态正确性。我们提出了 **QuechuaTok**,这是一个系统性基准,用于比较四种分词策略——BPE、Unigram LM、WordPiece 以及一种形态感知的 PRPE 分词器——针对南克丘亚语(quz),这是一种低资源黏着型语言,在南美洲有 800–1000 万使用者。我们使用包含 20 万句的语料库和有限状态形态分析器 SQUOIA(Rios, 2016)作为银标准,评估了三个指标:产出率、未登录词率和形态边界准确率(MorphAcc)。结果表明,BPE 在词表大小为 16k 时实现了最低的产出率(1.636),这是通过记忆表面词形实现的,但其 MorphAcc 仅为 6.67%。PRPE 实现了 83.33% 的 MorphAcc——是所有系统中最高的一这证明了仅靠产出率不足以评估黏着型语言的分词器。所有代码和模型均已公开。111kaggle.com/code/macmaky/quechuatok

## 1 引言

分词决定了语言模型如何感知语言的基本单位。对于形态丰富、黏着型的语言如克丘亚语,这一选择尤为重要:一个像“purisqanchikmanta”(“来自我们的行走”)这样的单词,在同一个表面形式中编码了动词词根、体、共指和格。在多语言大型语料库上训练的标准子词分词器——主要针对欧洲语言设计——会任意拆分这些形式,忽略承载语法意义的形态边界。

尽管克丘亚语是美洲使用最广泛的土著语言家族(Adelaar and Muysken, 2004),但针对该语言的分词策略的系统性评估在文献中仍然缺失。关于克丘亚语自然语言处理的先前工作集中在机器翻译(Mager et al., 2021)和语言建模(Zevallos et al., 2022),但分词质量通常继承自多语言模型,未经过评估。

本文贡献如下:
1. 针对南克丘亚语的 20 万句语料库,对 BPE、Unigram LM、WordPiece 和 PRPE 分词器进行了系统性基准测试。
2. 提出一种形态边界准确率指标,并通过 SQUOIA 有限状态分析器(Rios, 2016)进行了验证。
3. 提供实证证据,证明产出率在黏着型语言中不是形态质量的可靠代理指标。

## 2 背景

### 2.1 克丘亚语形态

南克丘亚语(quz)是一种高度黏着型语言,具有严格的后缀形态。动词和名词词根后接一系列后缀,编码时-体-语气(TAM)、人称、数、格、言据性和话语功能。其言据系统尤其独特:说话者必须通过语法手段标记信息是直接的(目击)、转述的(传闻)还是推测的(Faller, 2002)。例如:
*rimankichikmi* (rima-nkichik-mi) = 说-第二人称复数主语-直接言据 (“你们都在说 [我亲眼所见]”)。

这种形态丰富性意味着,一个每个单词产生更少分词片段的分词器并不一定更好——它可能只是将长的表面形式作为原子单元记忆。

### 2.2 低资源语言的分词

字节对编码(Sennrich et al., 2016)和 Unigram LM(Kudo, 2018)是自然语言处理中主流的子词分词方法。两者都是基于语料库统计的方法,从频率模式中学习切分。对于形态复杂的语言,由于语素边界并不一定是频率边界(Rust et al., 2021),它们的性能会下降。PRPE(前缀-词根-后缀编码,Zuters et al., 2018)是一种半监督算法,显式编码形态结构。该方法在 Mager et al.(2021)中用于克丘亚语-西班牙语翻译,但并未对照形态银标准进行系统评估。

## 3 方法

### 3.1 语料库

我们使用两个公开可用的语料库。主要语料库是 Llamacha/monolingual-quechua-iic(Zevallos et al., 2022),这是一个结合了维基百科和 OSCAR 来源的单语南克丘亚语数据集。我们补充使用了 somosnlp-hackathon-2022/spanish-to-quechua(https://arxiv.org/html/2606.23943v1/somosnlp-hackathon-2022/spanish-to-quechua)平行语料库,提取其克丘亚语部分。经过预处理(Unicode NFC 标准化、噪声去除、去重和形态有效性过滤),最终训练语料库包含 200,193 个句子。

### 3.2 分词器

我们使用 SentencePiece(Kudo and Richardson, 2018)和 HuggingFace Tokenizers 训练并评估四种分词器:
- • BPE:词表大小 4k、8k、16k
- • Unigram LM:词表大小 4k、8k、16k
- • WordPiece:词表大小 4k
- • PRPE:手工构建的后缀词表,包含 23 个克丘亚语语素,涵盖 TAM、人称一致、名词格、言据性和派生后缀

所有统计模型均使用 `byte_fallback=True`,并将撇号作为特殊符号保留,用于表示挤喉辅音(k'、q'、p')。

### 3.3 评估指标

#### 产出率(Fertility rate)
衡量每个单词产生的平均分词片段数。较低的值意味着更紧凑的表示,但我们认为仅此一项不够。

#### 未登录词率(OOV rate)
衡量被映射到 `<UNK>` 的百分比。启用字节回退后,SentencePiece 模型的该项为 0%。

#### 形态边界准确率(Morphological boundary accuracy, MorphAcc)
这是我们的主要贡献。我们使用 SQUOIA 有限状态形态分析器(Rios, 2016)作为银标准,提取一个包含 15 个单词的评估集的正确语素切分,并计算分词器边界与银标准边界匹配的比例:

MorphAcc = |pred_bounds ∩ silver_bounds| / |silver_bounds|   (1)

银标准由 SQUOIA 自动生成并经过人工验证。我们使用从 SQUOIA 仓库(github.com/ariosquoia/squoia)编译的 `analyzeUnificado.bin` 模型。

## 4 结果

### 4.1 定量结果

参见说明
**图 1:南克丘亚语不同分词器的产出率比较。BPE 16k 通过记忆表面形式实现了最低的产出率(1.636),而 PRPE 实现了最高的形态准确率(83.33%)。**

**表 1:基准测试结果。** ↓ 表示越低越好,↑ 表示越高越好。PRPE 在保持竞争性产出率的同时实现了最高的 MorphAcc。

| 分词器 | 词表大小 | 产出率 ↓ | 形态准确率 ↑ | 未登录词率 ↓ |
|--------|----------|----------|--------------|--------------|
| BPE    | 4k       | 2.124    | 6.67%        | 0%           |
| BPE    | 8k       | 1.832    | 6.67%        | 0%           |
| BPE    | 16k      | 1.636    | 6.67%        | 0%           |
| Unigram LM | 4k   | 2.204    | 66.67%       | 0%           |
| Unigram LM | 8k   | 1.922    | 26.67%       | 0%           |
| Unigram LM | 16k  | 1.714    | 33.33%       | 0%           |
| WordPiece | 4k      | 2.310    | 13.33%       | 10%          |
| PRPE     | 固定   | 1.797    | 83.33%       | 0%           |

### 4.2 主要发现

#### 发现 1:BPE 的产出率随词表大小单调递减,但 MorphAcc 保持在 6.67% 不变。
这表明 BPE 通过将常见的表面词形记忆为原子单元来降低产出率,而不是学习形态结构。在 16k 词表下,BPE 将诸如 `kunapiqa`(复数+位格+话题)等长多语素词视为单个分词片段。

#### 发现 2:Unigram LM 的词表大小与 MorphAcc 之间呈非单调关系。
Unigram 4k 实现了 66.67% 的 MorphAcc,但到 8k 时下降至 26.67%,16k 时回升至 33.33%。这表明在较大词表时,Unigram LM 也开始记忆表面形式。

#### 发现 3:PRPE 实现了最高的 MorphAcc(83.33%),同时产出率具有竞争力(1.797)。
与统计分词器不同,PRPE 的性能不依赖于语料库统计,而取决于形态后缀词表的质量。

### 4.3 定性分析

**表 2:定性切分对比。** BPE 和 Unigram 在 8k 词表下将多个语素合并为单个分词片段。

| 单词 | 银标准 | BPE 8k | Unigram 8k | PRPE |
|------|--------|--------|------------|------|
| rimanankupaq | rima-na-nku-paq | rimanankupaq | rimanankupaq | rima-na-nku-paq |
| willawasqankita | willa-wa-sqa-nki-ta | willawasqankita | willawasqankita | willa-wa-sqa-nki-ta |
| purisqanchikmanta | puri-sqa-nchik-manta | purisqanchikmanta | puris|qanchikmanta | puri-sqa-nchik-manta |
| apamuwankichikmi | apa-mu-wa-nkichik-mi | apamuwankichikmi | apam|uwanki|chikmi | apa-mu-wa-nkichik-mi |

### 4.4 下游评估:二元语法困惑度

为了评估下游影响,我们在分词后的克丘亚语文本上训练一个平滑的二元语法语言模型,并在留出句子上评估困惑度。

**表 3:完整基准测试:产出率、MorphAcc 和二元语法困惑度(PPL)。** 没有单个分词器在所有指标上胜出。Unigram 4k 实现了最低的困惑度(1344),而 PRPE 实现了最高的 MorphAcc(83.33%)。BPE 在这两个指标上均表现不佳,尽管实现了最低的产出率,证实了低产出率反映的是表面形式记忆而非语言结构学习。

| 分词器 | 词表大小 | 产出率 ↓ | MorphAcc ↑ | PPL ↓ |
|--------|----------|----------|------------|-------|
| BPE    | 4k       | 2.124    | 6.67%      | 1430  |
| BPE    | 8k       | 1.832    | 6.67%      | 1412  |
| BPE    | 16k      | 1.636    | 6.67%      | 1398  |
| Unigram LM | 4k   | 2.204    | 66.67%     | 1344  |
| Unigram LM | 8k   | 1.922    | 26.67%     | 1367  |
| Unigram LM | 16k  | 1.714    | 33.33%     | 1355  |
| WordPiece | 4k      | 2.310    | 13.33%     | 1455  |
| PRPE     | 固定   | 1.797    | 83.33%     | 1350  |

## 5 讨论

我们的结果为使用单一指标评估黏着型语言分词器的根本局限性提供了实证证据。没有一个分词器能同时赢得所有三个指标:PRPE 实现了最高的形态边界准确率(83.33%),Unigram 4k 实现了最低的困惑度(1344),而 BPE 16k 实现了最低的产出率(1.636)。然而,BPE 在产出率上的表面优势是表面形式记忆的假象——它在可比模型中实现了最差的形态准确率(6.67%)和最高的困惑度。

Unigram 4k 的结果(66.67% MorphAcc)尤其具有信息量:在较小的词表下,Unigram LM 被迫将单词切分为更短的片段,而这些片段恰好与语素对齐。随着词表增大,这一约束放松,模型过拟合表面频率。

PRPE 的优势在于其显式编码了克丘亚语的形态。然而,它也有局限性:需要人工构建的后缀词表,且其性能依赖于词表的覆盖范围。16.67% 的错误率(银标准边界)主要来自包含多个叠加言据后缀的单词,以及带有克丘亚语后缀的西班牙语借词。

## 6 结论

我们提出了 QuechuaTok,这是首个针对南克丘亚语的系统性分词基准。我们的主要发现是:产出率不足以评估黏着型语言的分词器——BPE 通过记忆表面形式实现了比 PRPE 更低的产出率,但形态边界准确率仅为 6.67%,而 PRPE 达到了 83.33%。我们引入形态边界准确率作为必要的补充指标,并经过 SQUOIA 分析器的验证。未来工作包括将 MorphAcc 银标准扩展到 500+ 个单词,并将 PRPE 分词器集成到克丘亚语专用语言模型(QuechuaBERT)中。

## 致谢

我们感谢 Annette Rios 公开提供了 SQUOIA 形态分析器,这对于本研究中的银标准评估至关重要。

## 参考文献

- W. F. H. Adelaar and P. Muysken (2004) *The languages of the Andes*. Cambridge University Press. Cited by: §1.
- M. Faller (2002) *Semantics and pragmatics of evidentials in Cuzco Quechua*. Ph.D. Thesis, Stanford University. Cited by: §2.1.
- T. Kudo and J. Richardson (2018) SentencePiece: a simple and language independent subword tokenizer and detokenizer for neural text processing. In *Proceedings of EMNLP*. Cited by: §3.2.
- T. Kudo (2018) Subword regularization: improving neural network translation models with multiple subword candidates. In *Proceedings of ACL*. Cited by: §2.2.
- M. Mager, A. Oncevay, et al. (2021) Findings of the AmericasNLP 2021 shared task on open machine translation for indigenous languages of the Americas. In *Proceedings of the First Workshop on NLP for Indigenous Languages of the Americas*. Cited by: §1, §2.2.
- A. Rios (2016) A basic language technology toolkit for Quechua. In *Procesamiento de Lenguaje Natural*, Vol. 56, pp. 91–94. Cited by: item 2, §3.3.
- P. Rust, J. Pfeiffer, I. Vulić, S. Ruder, and I. Gurevych (2021) How good is your tokenizer? on the monolingual performance of multilingual language models. In *Proceedings of ACL*. Cited by: §2.2.
- R. Sennrich, B. Haddow, and A. Birch (2016) Neural machine translation of rare words with subword units. In *Proceedings of ACL*. Cited by: §2.2.
- R. Zevallos et al. (2022) QuBERT: a large monolingual corpus and BERT model for Southern Quechua. In *Findings of ACL*. Cited by: §1, §3.1.
- J. Zuters et al. (2018) Word-level language models for Latvian. In *Proceedings of the Human Language Technologies*. Cited by: §2.2.

相似文章

用Toki Pona检验Word2Vec的极限

arXiv cs.CL

本文研究了Word2Vec能否为仅含约130个词汇的人造语言Toki Pona生成有意义的语义嵌入,使用了一个包含140万句子的语料库,并考察了非Toki Pona标记对嵌入质量的影响。