利用双语微调与语言识别改进低资源ASR：一项跨语言评估

arXiv cs.CL 2026/06/17 04:00 论文

low-resource asr speech-recognition cross-lingual fine-tuning language-identification

摘要

本研究评估了使用语言识别令牌进行双语微调以改进低资源语言ASR的方法，涉及九个多样化的语言对。结果发现，高语言识别准确率是有益的，而在语言识别准确率低的情况下，在推理时提供语言识别令牌可以提升性能。

arXiv:2606.17820v1 公告类型：新摘要：本研究探讨了双语微调如何影响低资源语言的自动语音识别（ASR）。我们在九个语言和地理多样化的语言对上评估了该方法，涵盖了多种语系和书写系统。为了区分两种语言，在训练期间，我们在每个输入文本前添加一个语言识别令牌。在推理时，模型仅从语音输入中联合预测语言和转录。由于语言被错误确定的文本显示出较低的ASR性能，我们还进行了一项后续实验，其中在训练和推理期间均提供语言识别令牌。我们的结果表明，当语言识别准确率高时，双语微调是有益的；而在语言识别性能低的情况下，在推理中包含语言识别令牌有助于提高ASR性能。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:42

# 基于语言识别的双语微调提升低资源自动语音识别：跨语言评估
来源：https://arxiv.org/html/2606.17820
###### 摘要

本研究探讨了双语微调对低资源语言自动语音识别（ASR）的影响。我们跨九个在语言和地理上多样化的语言对评估了该方法，涵盖多个语系和书写系统。为了区分两种语言，我们在训练时将每个输入文本前附加一个语言识别标记。在推理时，模型仅从语音输入中联合预测语言和转写。由于语言识别错误的文本通常表现出较低的ASR性能，我们还进行了一项后续实验，在训练和推理时都提供语言识别标记。我们的结果表明，当语言识别准确率高时，双语微调是有益的；在语言识别性能较低的情况下，在推理时包含语言识别标记有助于提高ASR性能。

关键词：低资源ASR、跨语言迁移、语言识别、自监督学习

\NAT@set@cites

基于语言识别的双语微调提升低资源自动语音识别：跨语言评估

Reihaneh Amooie¹, 郝芸¹, Wietse de Vries¹, Jelske Dijkstra², Matt Coler¹, Martijn Wieling¹,³
¹格罗宁根大学, ²弗里斯兰科学院, ³布鲁塞尔自由大学
\{r.amooie, yun.hao, wietse.de.vries, m.coler, m.b.wieling\}@rug.nl, [email protected]
摘要内容

## 1. 引言

自动语音识别（ASR）近年来取得了快速进展。然而，这些进展大多仍局限于英语等高资源语言。低资源语言仍面临诸多挑战，包括数据稀缺和方言变异。解决这一挑战的一个有前景的方法是跨语言迁移学习，即利用高资源语言的知识来支持低资源语言。

已有研究探索了语言感知和语言无关的多语言微调策略，作为通过跨语言迁移提升低资源ASR的有前景方法。例如，Yang等人（2023 (https://arxiv.org/html/2606.17820#bib.bib26)）提出了一种稀疏多语言模型，带有语言特定子网络和重叠共享路径，使得高资源数据能够支持低资源语言。类似地，San等人（2024 (https://arxiv.org/html/2606.17820#bib.bib29)）证明，用捐赠数据补充低资源语言非常有效：仅用10小时旁遮普语加60小时印地语进行持续预训练，其性能几乎与单独使用70小时旁遮普语相当。

另一条研究路线则明确纳入语言信息。外部语言识别（LID）有助于消除歧义，但会增加延迟（Waters等人，2019 (https://arxiv.org/html/2606.17820#bib.bib27)），因此出现了将隐式或显式LID集成到ASR系统中的方法，例如元学习框架（Hsu等人，2020 (https://arxiv.org/html/2606.17820#bib.bib24)；Xiao等人，2021 (https://arxiv.org/html/2606.17820#bib.bib22)）、基于适配器的方法（Hou等人，2020 (https://arxiv.org/html/2606.17820#bib.bib17)；Winata等人，2020 (https://arxiv.org/html/2606.17820#bib.bib20)）以及多任务学习设置（Hou等人，2020 (https://arxiv.org/html/2606.17820#bib.bib17)；Chen和Mak，2015 (https://arxiv.org/html/2606.17820#bib.bib19)）。在多任务学习中，Chen等人（2023 (https://arxiv.org/html/2606.17820#bib.bib30)）使用辅助CTC目标，使得较早的编码器层专注于语言识别，而后面的层则根据语言身份生成转写。与此相关，Liu等人（2023 (https://arxiv.org/html/2606.17820#bib.bib18)）采用了带哈夫曼树结构的层次Softmax，利用相关语言之间语言单元频率分布的相似性来提升低资源性能。Amooie等人（2025 (https://arxiv.org/html/2606.17820#bib.bib14)）最近的一项研究表明，当多语言微调语料库附加上语言识别（LID）标记时，弗里斯兰语的ASR性能似乎有所提升，使模型能够在微调和评估期间依据语言身份进行条件化。

然而，尚不清楚带有显式语言识别的双语微调是否能在不同的语言背景下持续提升ASR性能。先前的研究并未系统地考察这一方法在不同语系、不同文字系统或不同语言相似度下的表现。诸如语言接近度、书写系统兼容性以及模型区分语言的能力等因素尚未被系统研究。因此，在本工作中，我们探讨何时以及在何种条件下，对两种相关语言使用显式语言识别（LID）标记（附加在每个训练样本前以指示其语言）的双语微调能够对低资源语言带来益处。我们在九种类型多样的相关语言对上评估了该方法，涵盖五个语系和多种书写系统。对于五个目标-捐赠对（其可用数据允许子采样），我们使用随机数据子集训练了多个模型，以评估所观察到的改进的稳健性。

## 2. 数据

除了弗里斯兰语（旨在重现Amooie等人，2025 (https://arxiv.org/html/2606.17820#bib.bib14)的结果），我们还从五个语系中纳入了另外八种目标语言。我们特意选择了这八种目标语言，它们代表了不同的语系、类型学特征和书写系统，以便在各种低资源场景下评估该方法。

对于每种目标语言，我们首先根据ASJP数据库中的词汇-语音距离（即LDND距离）从Common Voice 17.0（Ardila等人，2020 (https://arxiv.org/html/2606.17820#bib.bib25)）中选择最相似的捐赠语言（另见De Vries等人，2021 (https://arxiv.org/html/2606.17820#bib.bib32)的类似方法）。我们采用双语微调设置，而非多语言设置，因为先前的研究（Amooie等人，2025 (https://arxiv.org/html/2606.17820#bib.bib14)）表明，多语言（涉及两种以上语言）微调相对于双语微调没有明显的提升。

所有音频均从Common Voice 17.0中提取，并以16 kHz采样。为了避免偏向高资源语言，我们将每对语言中的两种语言都下采样到3000条话语。我们控制话语数量（3000或更少，取决于可用资源），以确保不同语言在训练中看到可比较的训练实例数量。虽然由于话语长度分布差异，这确实会导致总时长有所不同，但我们选择了在训练过程中样本数量的一致性。当可用话语较少时（从而代表极低资源场景），我们将两种语言调整到较少的数量。对于有超过3000条话语可用的五个语言对（FY-NL、DA-SV、GL-IT、UK-BE、SK-CS），我们使用不同的随机种子重复训练了10次，以评估改进的统计显著性和稳健性。表1 (https://arxiv.org/html/2606.17820#S2.T1)显示了每个数据集的全部相关信息。

每个模型均在Common Voice 17.0（Ardila等人，2020 (https://arxiv.org/html/2606.17820#bib.bib25)）中对目标低资源语言的测试分割进行了评估。我们没有对测试集进行下采样。然而，用于监控训练进度和调整超参数的开发分割被下采样，以匹配训练样本的数量。

表1：微调数据集（来自Common Voice 17.0的子集；Ardila等人，2020 (https://arxiv.org/html/2606.17820#bib.bib25)）。单语言行对应目标语言，语言对行将目标语言（第一个）与源语言（第二个）合并。Sim. script：两种语言使用相似的文字；Dur.：时长；# Utt.：话语数量；# Spk.：说话人数量。### 2.1. 语言对

在本节中，我们简要介绍所选的语言对，并提供来自Glottolog（Hammarström等人，2024 (https://arxiv.org/html/2606.17820#bib.bib39)）和WALS（Dryer和Haspelmath，2024 (https://arxiv.org/html/2606.17820#bib.bib40)）的语言学信息。

- • 日耳曼语族：弗里斯兰语（目标）和荷兰语（捐赠）作为西日耳曼语言被纳入，以重现Amooie等人（2025 (https://arxiv.org/html/2606.17820#bib.bib14)）的结果。两者均使用拉丁字母（分别有24和26个字符，具体取决于计数方式），弗里斯兰语具有独特的变音符号，如â、ê和ô。荷兰语因其与弗里斯兰语的高度相似性而被选为捐赠语言。丹麦语（目标）和瑞典语（捐赠）代表北日耳曼语言，均使用拉丁字母（29个字母），但在额外字符上有所不同，例如瑞典语中的ä和ö，而丹麦语中有æ和ø。
- • 罗曼语族：加利西亚语（目标）和意大利语（捐赠）是罗曼语言，均使用拉丁文字，但遵循不同的正字法惯例。例如，加利西亚语包含字母ñ，并使用尖音符标记非默认重音，而意大利语缺少ñ，但使用重音符/尖音符（例如è、é、ò、ó），主要用于指示元音质量和末尾重音。
- • 斯拉夫语族：我们包含了四个斯拉夫语言对，它们在文字和拼写传统上有所不同。乌克兰语–白俄罗斯语和塞尔维亚语–保加利亚语使用西里尔字母，而斯洛伐克语–捷克语和斯洛文尼亚语–波兰语使用拉丁字母。在每个对中，语言共享相同的文字，但在正字法惯例上有所不同。例如，乌克兰语和白俄罗斯语在某些字符和软音符号使用上有所不同，而塞尔维亚语和保加利亚语在一些西里尔字母和元音表示上有所不同。
- • 达罗毗荼语族：马拉雅拉姆语（目标）和泰米尔语（捐赠）是达罗毗荼语言，其书写系统虽然历史上有联系，但发展出了不同的特征。两种文字都源自婆罗米文，但马拉雅拉姆语通过格兰塔文演变，保留了更多其特征，而泰米尔语经历了更大的简化和标准化。
- • 乌拉尔语系：芬兰语（目标）和爱沙尼亚语（捐赠）是乌拉尔语言，使用带有不同变音符号的拉丁字母。例如，爱沙尼亚语使用š、ž和o，而芬兰语没有这些；芬兰语使用å（主要用于瑞典语借词）。爱沙尼亚语还省略了c、q、w、x和y。

## 3. 方法

### 3.1. 微调步骤

我们对预训练的XLS-R 1B模型（Babu等人，2021 (https://arxiv.org/html/2606.17820#bib.bib15)）进行了微调，该模型基于Wav2Vec 2.0架构（Baevski等人，2020 (https://arxiv.org/html/2606.17820#bib.bib34)），包含一个卷积特征编码器，后接一个基于Transformer的上下文网络。在微调过程中，我们冻结了卷积特征编码器以保留预训练的声学表示，仅更新Transformer层。这种方法与微调Wav2Vec 2.0模型用于ASR任务的标准做法一致。为了训练模型，我们使用了0.00008的学习率和批次大小为8，并进行了16步梯度累积。所有实验均在单张40 GB显存的NVIDIA A100 GPU上使用16位浮点精度进行。

我们将每种使用双语数据训练的模型与仅使用目标语言数据训练的基线模型进行了比较。当数据集大小翻倍时，训练时间必然增加。为了确保任何性能提升是由添加捐赠语言数据而非更长的训练时间引起的，我们在所有实验中保持训练epoch数（50）不变。这是为了确保在单语言和双语运行中，每个训练样本都被看到50次，因此双语模型仅因为拥有两倍多的训练样本而执行两倍多的更新。这也防止了单语言模型可能过拟合。

### 3.2. 语言识别步骤

为了在训练和推理期间提供显式的语言上下文，我们在训练时将每个话语（句子）前附加一个语言识别（LID）标记。该LID标记作为一个真实标签，指示其语言（例如，弗里斯兰语为[FY-NL]，荷兰语为[NL]）。

在这种方法中，在推理时我们不提供语言识别标记。解码器首先预测LID标记，然后预测转写。通过这样做，语言识别和转写被联合学习并推断。

#### 3.2.1. 后续实验：在推理时提供正确的LID

基于语言预测正确的样本具有更好ASR性能的假设，我们还对一部分语言对进行了一项小型实验，在该实验中，我们直接将模型条件化为目标语言身份。为了实现这一点，我们用简单的语言特定偏置嵌入（每种语言一个向量，大小与词汇表相同）扩展了Wav2Vec2ForCTC，并在每个时间步将该偏置添加到CTC的logits中。每个训练和测试话语被分配一个数字语言ID（例如，丹麦语为0，瑞典语为1），模型在微调和推理期间将其作为额外参数（langid）接收。在两个阶段，模型都会查找对应于给定语言的偏置向量。该偏置向量作为语言特定的先验，将模型的输出分布向该语言的特征音素和正字法模式偏移。结果，解码器更有可能预测目标语言典型的字符和序列。编码器在语言之间完全共享，因此该机制仅引入极少量的额外参数，同时显式地告知解码器正确的语言。这种条件化有助于解码器保持在正确的语言空间内，并防止解码时的跨语言混淆。

### 3.3. 评估指标

ASR性能使用词错误率（WER）进行评估。双语微调的益处通过Δ\\DeltaWER量化，定义为单语言WER减去双语WER。因此，更正值表示更大的改进（即WER降低）。LID性能使用准确率进行评估，定义为语言被正确识别为目标语言的测试话语比例。

表2：单语言基线模型与双语模型的WER比较。正的Δ\\DeltaWER表示双语模型相对于单语言模型的改进。对于使用10个随机训练数据子集的五个语言对，p值反映了WER差异的（双尾）单样本t检验的显著性，自由度为9。显著的p值（< 0.05）以粗体标记。Dist.表示语言对之间的语言距离，LID acc.表示10次随机洗牌中推理出的语言识别准确率。语言对单语言WER（标准差）双语WER（标准差）ΔWER（标准差）p(t)距离LID准确率（%）FY–NL16.1（±0.4）14.4（±0.3）+1.7（±0.4）< 0.00152.099.5DA–SV2

利用双语微调与语言识别改进低资源ASR：一项跨语言评估

相似文章

实际环境中的多语言多模态大语言模型：面向低资源语言的构建

迈向真正多语言ASR：将代码切换ASR泛化到未见过的语言对

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

语音识别中的Convex低资源口音鲁棒语言检测

用于鲁棒代码切换语音识别的基于LLM生成的近失对比训练

提交意见反馈