基于预训练语言模型的模块化单语言适配

arXiv cs.CL 论文

摘要

本文提出了一种模块化方法,通过冻结嵌入并调整模型其余部分,将预训练语言模型适配到低资源语言,在苏格兰盖尔语、爱尔兰语和克丘亚语的NLU任务上展示了改进效果。

arXiv:2606.06738v1 Announce Type: new 摘要:为低资源语言构建单语言语言模型通常依赖于通过在全量目标语言上微调整个模型来适配预训练语言模型。相比于从头开始训练,这种方法因其能有效进行知识迁移而被广泛青睐。此外,先前的研究表明,使用语言特定的分词器可以增强适配性。在这项工作中,我们假设全模型调优通常是不必要的,并提出了一种更模块化的方法。具体来说,我们替换token,冻结对应的嵌入,并调整模型的其余部分。我们在苏格兰盖尔语、爱尔兰语和克丘亚语上进行实验,其中克丘亚语是非常低资源的语言(8.5k训练实例)。在自然语言理解(NLU)任务——掩码填充、NER和POS上的评估表明,我们提出的方法在将模型适配到低资源语言时提升了性能。此外,我们对训练策略的有效性、预训练嵌入的选择以及模型进行了全面分析。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:20

# 基于预训练语言模型的模块化单语适配
来源:https://arxiv.org/html/2606.06738
Ondřej Dušek 查尔斯大学,数学与物理学院,形式与应用语言学研究所 布拉格,捷克共和国 \{nkumar, odusek\}@ufal.mff.cuni.cz

###### 摘要

为低资源语言构建单语语言模型(LMs)通常依赖于通过微调整个模型到目标语言来适配预训练语言模型(PLMs)。与从头训练相比,这种方法因能实现有效的知识迁移而更受青睐。此外,先前的工作表明,使用特定语言的tokenizer可以增强适配性。在本工作中,我们假设完全模型调优往往不是必需的,并提出了一种更模块化的方法。具体来说,我们替换token,冻结相应的嵌入,并调优模型的其余部分。我们在苏格兰盖尔语、爱尔兰语和克丘亚语上进行实验,其中克丘亚语是一种资源极低的语言(8500个训练实例)。在自然语言理解(NLU)任务——掩码填充、命名实体识别(NER)和词性标注(POS)上的评估表明,我们提出的方法在将模型适配到低资源语言时提升了性能。此外,我们对训练策略的有效性、预训练嵌入的选择以及模型进行了全面分析。

基于预训练语言模型的模块化单语适配

Nalin Kumar 和 Ondřej Dušek
查尔斯大学,数学与物理学院
形式与应用语言学研究所
布拉格,捷克共和国
\{nkumar, odusek\}@ufal.mff.cuni.cz

## 1 引言

近年来,随着大型语言模型的出现,多语言LMs的性能有了很大提升。它们不仅资源高效,并能对低资源语言实现跨语言迁移学习,还能提升零样本能力。然而,由于多语言性的诅咒(Conneau等人,2020年(https://arxiv.org/html/2606.06738#bib.bib83)),在训练容量固定的多语言大模型时,高资源语言可能会占据参数空间的主要份额,因为模型主要是在包含英语和其他高资源语言的数据集上训练的(Li等人,2024年(https://arxiv.org/html/2606.06738#bib.bib62);Achiam等人,2023年(https://arxiv.org/html/2606.06738#bib.bib37);Team等人,2023年(https://arxiv.org/html/2606.06738#bib.bib74);Dubey等人,2024年(https://arxiv.org/html/2606.06738#bib.bib72);Team等人,2024年(https://arxiv.org/html/2606.06738#bib.bib73))。因此,这限制了低资源语言的下游性能(Wu and Dredze,2020年(https://arxiv.org/html/2606.06738#bib.bib82))。

先前文献表明,虽然用多种语言训练模型可以提升跨语言迁移,但也可能对低资源语言产生负面干扰(Wang等人,2020年(https://arxiv.org/html/2606.06738#bib.bib32);Muller等人,2021年(https://arxiv.org/html/2606.06738#bib.bib29))。词汇扩展(Chau and Smith,2021年(https://arxiv.org/html/2606.06738#bib.bib28))、适配器(Pfeiffer等人,2020b(https://arxiv.org/html/2606.06738#bib.bib31))和专家集成(Blevins等人,2024年(https://arxiv.org/html/2606.06738#bib.bib81))等方法带来了改进。其中一种最新且最有效的技术是语言自适应微调(LAFT)(Alabi等人,2022a(https://arxiv.org/html/2606.06738#bib.bib14)),该方法在相同的预训练目标(如掩码语言建模,Eisenschlos等人,2019年(https://arxiv.org/html/2606.06738#bib.bib35))下,对预训练的多语言LM(PMLM)进行训练。然而,在可用的少量数据上训练整个模型可能导致过拟合,并且成本过高。

参考图标注
图1:我们提出方法的概述。我们首先训练一个自定义tokenizer,并使用FastText创建相应的嵌入。我们替换PLM的输入和LM Head嵌入,并冻结它们。然后我们调优模型的其余部分。与MLM模型的标准做法一样,输入和输出嵌入的权重是绑定的。
在本工作中,我们提出了一种使用针对低资源语言训练的自定义tokenizer来模块化适配PMLM的方法。我们冻结嵌入,只训练其余参数(见图1(https://arxiv.org/html/2606.06738#S1.F1))。这可以防止模型参数在训练样本上过拟合。从图2(https://arxiv.org/html/2606.06738#S1.F2)可以看出,嵌入层由于矩阵尺寸较大且在反向传播期间权重更新的幅度较大,特别容易过拟合。因此,我们假设在低资源设置下,对整个模型进行单语适配调优并不总是理想的。在单语适配的背景下,我们针对本研究的核心研究问题(RQ)展开探讨:训练整个模型是否总能获得最佳性能?

具体来说,我们做出以下贡献:

- • 我们提出了一个模块化框架,用于将预训练的多语言语言模型(PMLMs)适配到低资源语言。
- • 我们对tokenizer的作用、嵌入初始化的选择以及多语言模型在单语适配中的有效性进行了全面分析。我们在三种语言(苏格兰盖尔语gd、爱尔兰语ga和克丘亚语qu)上使用多个预训练模型(BERT、多语言BERT、多语言ModernBERT)进行了实验。

参考图标注
图2:该图显示了预训练和微调后的BERT在苏格兰盖尔语上每个输出层之间的权重差异。x轴表示枚举的层,y轴表示预训练与微调BERT层之间的欧几里得距离。
我们在掩码填充、命名实体识别(NER)和词性标注(POS)任务上评估我们的方法。我们表明,非嵌入调优的下游性能通常优于全调优训练策略。然而,嵌入的选择作用比预期的要小。相比之下,使用自定义tokenizer相比词汇量显著更大的多语言tokenizer有重大改进。我们的实验代码已在GitHub上发布。111https://github.com/knalin55/MMA-PLM

## 2 相关工作

#### 词汇在语言建模中的作用

词汇的选择对于在低资源语言上训练LM至关重要。例如,将PMLM的相同词汇重用于未见过语言,可能导致token生育率增加,从而增加计算成本(Lundin等人,2025年(https://arxiv.org/html/2606.06738#bib.bib93))。为了缓解这个问题,已有大量工作通过扩展词汇量来改善语言建模。Chau等人(2020年(https://arxiv.org/html/2606.06738#bib.bib80))通过将mBERT中的\[UNK\] tokens替换为目标语言中99个最频繁的词片tokens来扩充词汇。他们进一步在目标语言的单语语料库上训练模型,以获得比基线mBERT更好的结果。沿着类似的工作思路,Chau和Smith(2021年(https://arxiv.org/html/2606.06738#bib.bib28))提出了针对非拉丁字母语言的词汇扩充和音译。在最近的一项工作中,Yamaguchi等人(2024年(https://arxiv.org/html/2606.06738#bib.bib26))在低资源场景下实验了词汇扩展。为了更有效地扩充词汇,Lin等人(2025年(https://arxiv.org/html/2606.06738#bib.bib25))使用了基于语义和频率的方法。然而,Limisiewicz等人(2023年(https://arxiv.org/html/2606.06738#bib.bib24))认为,词汇扩充并不总是对所有下游任务有帮助,尤其是token级别的任务。另一种选择是利用现有模型及其嵌入。de Vries和Nissim(2021年(https://arxiv.org/html/2606.06738#bib.bib23))通过只重新学习词汇嵌入并冻结transformer层,将英语GPT2模型适配到意大利语和荷兰语。Hong等人(2024年(https://arxiv.org/html/2606.06738#bib.bib15))使用针对目标语言定制的语言建模头并进一步微调。在另一项工作中,Rust等人(2021年(https://arxiv.org/html/2606.06738#bib.bib22))表明使用单语tokenizer比其多语言对应物效果更好。在这项工作的基础上,我们也尝试用自定义目标语言的tokens替换预训练模型的词汇。

#### LAFT

语言自适应微调(LAFT)方法在相同的预训练目标下,通过在单语文本文本上微调预训练语言模型,使其适配未见过的语言,从而提高性能并处理更多语言细微差别。Sani等人(2025年(https://arxiv.org/html/2606.06738#bib.bib30))使用LAFT将AfriBERTa适配到豪萨语,一种极低资源语言。在另一项工作中,Alabi等人(2022b(https://arxiv.org/html/2606.06738#bib.bib20))提出了在几种密切相关的语言上进行多语言自适应微调。近年来,基于适配器的微调(Pfeiffer等人,2020a(https://arxiv.org/html/2606.06738#bib.bib19))是在新语言上训练模型最经济高效的方式之一。然而,尽管在目标任务上性能不错,适配器在模型完全微调方面的泛化能力较差(Shuttleworth等人,2024年(https://arxiv.org/html/2606.06738#bib.bib88))。

## 3 提出的方法

我们在实验中使用基于编码器的模型,如BERT和mBERT(Devlin等人,2019年(https://arxiv.org/html/2606.06738#bib.bib27))。为了比较模型在单语适配中基于目标语言是否出现在预训练数据中的有效性,我们选择了稍旧的模型。我们使用掩码语言建模(MLM)作为训练编码器模型的预训练目标。为了解决我们的RQ,我们提出了一种更模块化的单语适配方法(图1(https://arxiv.org/html/2606.06738#S1.F1))。我们从使用WordPiece(Devlin等人,2019年(https://arxiv.org/html/2606.06738#bib.bib27))构建目标语言的自定义tokenizer开始,词汇量保持在30k。我们在与语言模型相同的文本语料库上训练tokenizer。这不仅显著减少了可训练参数的总数(对于mBERT减少了25%),而且所有模型都具有更好的子词生育率。为了创建相应的嵌入矩阵,我们实验了三种不同的策略:

- • 重用基础模型嵌入权重(model):我们使用基础tokenizer对我们的新词汇中的所有tokens进行重新分词。通常,大多数新的特定语言tokens将由多个原始模型tokens组成。因此,我们取相应嵌入权重的平均值。
- • 静态预训练嵌入(FastText):我们使用FastText(Bojanowski等人,2017年(https://arxiv.org/html/2606.06738#bib.bib96))在标记化的语料库(与训练tokenizer相同的语料库)上训练嵌入,嵌入维度与模型相同。
- • 随机:为了比较嵌入选择的有效性,我们也使用随机初始化的嵌入进行实验。

我们使用上述策略之一创建的矩阵来初始化模型嵌入。为了在低资源语言上训练模型时提供更好的稳定性,我们冻结输入和输出嵌入,然后使用标准的MLM目标仅训练目标低资源语言的非嵌入参数。

## 4 实验设置

### 4.1 数据集与训练设置

我们在CC-100数据集(Conneau等人,2020年(https://arxiv.org/html/2606.06738#bib.bib83);Wenzek等人,2020年(https://arxiv.org/html/2606.06738#bib.bib53))上对苏格兰盖尔语(gd)、爱尔兰语(ga)和克丘亚语(qu)进行实验。CC-100数据集为超过100种语言提供了网络爬取的无监督语料。我们通过过滤掉极短的句子来预处理数据。最终的训练数据包括qu的8.5k个实例、gd的250k个实例和ga的500k个实例。我们使用这些数据来训练自定义tokenizer、FastText嵌入,并通过MLM目标训练语言模型。

我们对所有模型使用基础变体。我们训练模型50个epoch,并根据MLM准确率设置早停。我们根据可用的GPU使用动态批量大小。对于其他训练超参数,我们使用HuggingFace Trainer的默认值。对于所有设置,我们报告3次预训练运行的平均分数及标准差。

### 4.2 评估指标

我们评估所有模型在掩码填充任务(MLM)上的表现。我们还使用命名实体识别(NER)和词性标注(POS)作为下游任务来评估模型。我们使用WikiAnn数据集(Pan等人,2017年(https://arxiv.org/html/2606.06738#bib.bib84); Rahimi等人,2019年(https://arxiv.org/html/2606.06738#bib.bib85); Lovenia等人,2024年(https://arxiv.org/html/2606.06738#bib.bib86))进行NER任务的评估。WikiAnn是一个多语言NER数据集,包含在维基百科文章上的标注(LOC, PER, ORG)。gd和qu数据集分别包含100个训练、开发和测试实例。ga数据集包含1000个训练、开发和测试实例。

此外,我们使用UD Treebanks(Nivre等人,2020年(https://arxiv.org/html/2606.06738#bib.bib45))作为POS任务的数据来源。gd数据集包含3.5k、656和548个训练、开发和测试实例,有17个来自通用POS标签集(Petrov等人,2012年(https://arxiv.org/html/2606.06738#bib.bib95))的唯一标签。ga数据集的训练、开发和测试集分别包含4k、451和454个实例。由于qu语言没有可用的UD Treebank,我们不评估POS标注任务。

我们在下游任务上完全微调模型,因为我们的目标是优先考虑任务特定性能而非泛化能力。鉴于我们的实验专注于极低资源语言,我们优先考虑整体预测正确性;因此,我们在所有考虑的任务上使用准确率指标报告分数。

表1:苏格兰盖尔语(gd)的掩码填充准确率(rnd. init. = 随机初始化模型)。
表2:苏格兰盖尔语(gd)的NER准确率。
表3:苏格兰盖尔语(gd)的POS标注准确率。

### 4.3 模型变体

我们使用多语言现代BERT(mmBERT)(Marone等人,2025年(https://arxiv.org/html/2606.06738#bib.bib100))、多语言BERT(mBERT)和标准单语BERT(Devlin等人,2019年(https://arxiv.org/html/2606.06738#bib.bib27))作为基础模型。

相似文章