预训练的自监督语音模型能够识别未见过的辅音

arXiv cs.CL 论文

摘要

本文研究了预训练的自监督语音模型(如Wav2Vec2和HuBERT)是否能够准确识别咔嗒辅音(click consonants),这些辅音在训练数据中较为罕见,通过在科伊桑语言(Khoisan languages)上进行微调来测试。结果表明,这些模型识别咔嗒辅音的准确率高于非咔嗒辅音,表明它们能够泛化到不常见的音素。

arXiv:2606.11542v1 公告类型:新 摘要:现代预训练自监督自动语音识别模型在大规模音频数据上进行训练,以将语音编码为上下文表示。然而,它们的训练数据严重偏向于高资源语言,而低资源语言的数据很少,这引发了对类型学上不常见的语音声音(如主要出现在科伊桑语言中的咔嗒辅音)可能代表性不足的担忧。这引出了我们的核心研究问题:这些模型能否像识别其他语音声音一样准确地识别咔嗒辅音?为了回答这个问题,我们在两种富含咔嗒辅音的科伊桑语言(G|ui和West !Xoon)的数据上微调并比较了预训练的自监督语音模型(Wav2Vec2和HuBERT)。结果表明,微调后的模型识别咔嗒辅音的准确率始终高于非咔嗒辅音,这表明自监督学习使得模型能够泛化到包括罕见音素在内的人类语音声音。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:39

# 预训练自监督语音模型可识别未见过的辅音
来源:https://arxiv.org/html/2606.11542
Taguchi Le Ferrand Nakagawa Ono Kato Prud'hommeaux Chiang

ÉricHirosiHitomiKanjiEmilyDavid1美国圣母大学2纽约州立大学布法罗分校3东京外国语大学4丽泽大学5独立研究员6波士顿学院
ctaguchi@nd\.edu, ericlefe@buffalo\.edu, nhirosi@tufs\.ac\.jp, ono@reitaku\-u\.ac\.jp, jiateng\.ganzhi@gmail\.com, prudhome@bc\.edu, dchiang@nd\.edu (https://arxiv.org/html/2606.11542v1/mailto:%[email protected],%[email protected],%[email protected],%[email protected],%[email protected],%[email protected],%[email protected]%0A)

###### 摘要

现代预训练自监督自动语音识别模型在大规模音频数据上进行训练,将语音编码为上下文相关的表示。然而,它们的训练数据严重偏向高资源语言,低资源语言数据很少,这引发了关于类型学上不常见的语音(如主要出现在科伊桑语系中的搭嘴音)可能代表性不足的担忧。这引出了我们的核心研究问题:这些模型能否像识别其他语音一样准确地识别搭嘴音?为了解决这个问题,我们基于两种搭嘴音丰富的科伊桑语(Gui语和西!Xoon语)的数据,对预训练自监督语音模型(Wav2Vec2和HuBERT)进行微调并比较。我们的结果显示,微调后的模型始终能更准确地识别搭嘴音而非非搭嘴音,这表明自监督学习能够泛化到包括罕见音素在内的人类语音。

###### 关键词:

语音识别、低资源语言、语音学、音系学

## 1 引言

近年来,自动语音识别(ASR)在扩展多语言能力和提高对低资源语言的适应性方面取得了显著进展。大规模预训练自监督语音模型通过从海量未标记的多语言音频中学习通用声学表示,显著提升了许多语言的性能。基于自监督目标的模型已成为许多最先进ASR系统的基础,展现出强大的迁移能力,尤其是在有限的标记数据上进行微调时。

尽管取得了这些进展,现代ASR系统的优势仍然分布不均。用于预训练当代自监督模型的多语言语料库通常以高资源语言为主,特别是英语和其他广泛使用的语言。相比之下,大多数低资源语言在预训练数据中代表性不足或完全缺失。这种不平衡引发了人们的担忧:预训练模型是否充分捕捉了人类语音的全部多样性,尤其是类型学上不常见的语音现象?

一个特别引人注目的案例是搭嘴音,它们主要出现在科伊桑语系以及南部非洲的一些邻近班图语中。搭嘴音具有在全球语言中罕见的发音和声学特性,并且几乎不存在于主导ASR预训练数据集的高资源语言中。Phoible[phoible]报告只有12种语言拥有跨语言中最常见的搭嘴音 [k](清齿搭嘴音),其中只有祖鲁语、科萨语和北恩德贝勒语被整合到主要ASR模型的预训练中(参见表3 (https://arxiv.org/html/2606.11542#S4.T3))。因此,目前尚不清楚主要以非搭嘴音语言训练的自我监督多语言语音模型能否稳健地表示和识别这些声音。

具有搭嘴音的语言在技术领域一直受到忽视,以至于在进行降噪处理的视频会议工具中,这些搭嘴音有时会被当作“噪音”而抑制(中川宽志,个人通信,2025)。如果语音技术要真正支持跨语言社区的对话,那么它们不仅需要适用于全球占主导地位的语言,也必须适用于具有独特音系系统的语言。因此,了解现代ASR系统如何处理类型学上罕见的语音,既是技术上的当务之急,也是社会上的当务之急。

在这项工作中,我们研究预训练自监督多语言语音模型能否准确识别搭嘴音。我们对几种广泛使用的自监督架构进行微调,使用的数据来自Gui语和西!Xoon语(西Taa语),这两种科伊桑语拥有异常丰富的搭嘴音库存。然后,我们比较搭嘴音和非搭嘴音音素的识别性能,以评估在这些模型中类型学上罕见的语音是否处于劣势。

本研究的贡献如下:111部分数据集、训练好的模型以及实验中使用的代码将公开提供。

- •为搭嘴音丰富的科伊桑语构建数据集。我们为Gui语和西!Xoon语构建了ASR数据集。
- •对自监督ASR中搭嘴音识别的系统性评估。我们微调了多个预训练的多语言自监督ASR模型,并比较了搭嘴音和非搭嘴音音素的识别性能以及它们的整体性能。
- •对类型学上罕见声音的稳健泛化的实证证据。我们发现,微调后的模型始终能比非搭嘴音音素更准确地识别搭嘴音,这表明自监督预训练支持超越主导语言分布的泛化。

## 2 相关工作

Transformer[vaswani2023attentionneed]的引入使得ASR模型能够进行端到端训练,并可扩展到大量训练数据和多语言任务。大致而言,目前有两种多语言ASR的架构方法:(1) 仅编码器自监督训练,随后进行特定语言微调;(2) 编码器-解码器监督训练,其目标是将语音“翻译”成令牌序列。

前者的代表架构是Wav2Vec 2.0[baevski2020wav2vec20frameworkselfsupervised]。其预训练方式类似于BERT[devlin-etal-2019-bert]。数据仅包含未标记的音频,一些帧会被遮蔽并量化成离散单元,这些单元在可学习的矩阵(码本)中代表抽象的语音类别。对于每一帧,所选的类别表示为一个向量(码向量),训练的目标是通过Transformer块预测上下文向量,使得预测向量与码向量之间的对比损失最小化,同时鼓励模型使用多样化的码向量集。预训练模型可以通过堆叠一个连接主义时序分类(CTC)[10.1145/1143844.1143891]层来微调以解决ASR任务,该层为每帧预测一个符号,并通过合并连续的重复符号来获得最终字符串。自推出以来,Wav2Vec 2.0的多个衍生模型已经发布,支持越来越多的语言和更大规模的语音数据[conneau2020unsupervisedcrosslingualrepresentationlearning, babu2021xlsrselfsupervisedcrosslingualspeech, communication2023seamlessmultilingualexpressivestreaming, pratap2023scalingspeechtechnology1000, omnilingualasrteam2025omnilingualasropensourcemultilingual]。另一种类似架构是HuBERT[hsu2021hubertselfsupervisedspeechrepresentation],其自监督目标类似,但通过对输入音频的梅尔频率倒谱系数进行k-means聚类来创建遮蔽帧的离散伪标签(即抽象类别)。后者的一个成功实例是Whisper[radford2022robustspeechrecognitionlargescale],其训练模式类似于机器翻译,旨在最小化令牌级别的交叉熵损失。音频输入通过编码器表示为向量,然后通过交叉注意力馈送到解码器,以自回归方式预测文本令牌。

据报道,自监督语音模型已学会通用语音表示[millet2022selfsupervisedspeechmodelsdevelop]并对语言无关的语音信息进行编码[choi24b_interspeech],因此在适应未见过的语言方面具有鲁棒性[rouditchenko2023comparisonmultilingualselfsupervisedweaklysupervised]。然而,尽管普遍认为在预训练数据中添加更多语言有助于跨语言迁移[grosman2025crosslingualtransferabilitypretrainedwav2vec2based],但这些模型是否对单个未见过的语音也表现出鲁棒性尚不清楚。我们旨在通过对具有类型学上非典型辅音——搭嘴音的语言进行实验来回答这个问题。

## 3 数据

本节描述为Gui语和西!Xoon语构建的数据集及其语言学背景。这两种语言都属于以搭嘴音闻名的科伊桑语系,但分别属于不同的谱系语言家族:Khoe-Kwadi语系和Tuu语系。表1 (https://arxiv.org/html/2606.11542#S3.T1) 提供了Gui语和西!Xoon数据集的描述。

表1:数据集描述。一个*词*是由空格分隔的单位。(a) Gui语。(b) 西!Xoon语。

Gui语(ISO 639-3: gwj)是一种在博茨瓦纳使用的卡拉哈里Khoe语。直到20世纪90年代末,Gui语使用者主要生活在现在的中央卡拉哈里野生动物保护区(CKGR)内。1996年至1998年间进行的一项大规模调查确定了769名使用者[nakagawa-2006a-gui-dialects]。此后没有再进行全面的普查,目前估计流利的使用者不到1000人。Gui语与Gana语形成一个紧密的方言群,内部分为三种主要方言(Xade、Tomelo和Kute),主要区别在于辅音特征。Gui语的音系系统拥有Khoe-Kwadi语系中报道的最大音素库[nakagawa-2006b-aspects-phonetic]。辅音系统包括大约90个音素,其中52个搭嘴音和38个非搭嘴音。区分四种搭嘴类型:齿 []、齿龈 [!]、腭 [] 和边音 []。这些与13个搭嘴系列(也称为伴随或流出类别)结合。系列区分独立于搭嘴类型,由喉部发音(清浊、送气、挤喉/喉化)、口鼻过程以及小舌位置的后续释放修改(参见表2 (https://arxiv.org/html/2606.11542#S3.T2))定义。语言学家和说话者社区一直在致力于为Gui语开发正字法[kato-2025-gui-gana-dictionary],这构成了本文G|ui数据集中所用正字法的基础。

Gui数据集包括50个在博茨瓦纳新Xade(汗济区)户外收集的音频录音。这些录音是关于Gui语民间故事或个人经历的叙述。由于包含个人身份信息以及与语音贡献者关于公开发布的协议不完备,该数据集目前不公开。数据集分为训练集(90%)和测试集(10%),由于数据量有限,没有验证集。

表2:Gui语搭嘴音。每个单元格中,左边的符号表示语音值,括号内的符号是数据集中使用的正字法标注。

西!Xoon语(ISO 639-3: nmn)是一种在博茨瓦纳和纳米比亚使用的Tuu语。西!Xoon语是Taa语中使用最广泛的方言,约有3000名使用者,分布在纳米比亚走廊13号和Aminuis附近地区[naumann-2016-phoneme-inventory-taa]。除了Gui语中的四种搭嘴类型外,西!Xoon语中还区分双唇搭嘴 []。连同伴随音,西!Xoon语的音系库有43个搭嘴音,使其成为Tuu语系中辅音最丰富的语言。西!Xoon语的正字法在Naumann (2016)[naumann-2016-phoneme-inventory-taa]中有详细说明。

对于西!Xoon语,实验使用了DoBeS项目333https://dobes.mpi.nl 的学者收集的150分钟诱发语音数据。该集合以半自动方式整理,使用Le Ferrand等人[le2025doesn]的方法评估了语音-转录的匹配性;然后丢弃不匹配的部分,并手动纠正浅层对齐错误。数据集包含大约1.75小时的录音,然后分为训练集(80%)和测试集(20%)。

Gui语和西!Xoon语都是声调语言。Gui语为每个音节拍分配三个平调(高、中、低),西!Xoon语区分两个平调(高和低)。在双音节拍词根中,这些平调组合成声调旋律。然而,由于数据集既包含带变音符号的声调识别转录,也包含不带声调的转录,因此声调符号(重音符 U+0300、锐音符 U+0301、长音符 U+0304)被移除。然后,文本被转换为小写,并移除括号等非音位符号。

## 4 实验

使用构建的数据集,我们将预训练的自监督模型(Wav2Vec 2.0系列和HuBERT)微调至Gui语和西!Xoon语,并评估模型能否自适应地学习识别搭嘴音。这里不比较具有自回归解码的ASR模型,因为它们的搭嘴音识别可能受到上下文信息的帮助。表3 (https://arxiv.org/html/2606.11542#S4.T3) 显示了实验中比较的模型列表,以及它们在预训练阶段包含的语言数量和具有搭嘴音的预训练语言。请注意,虽然祖鲁语和科萨语包含在多语言Wav2Vec 2.0基于模型的预训练中,但某些搭嘴音,如腭搭嘴 [](出现于Gui语和西!Xoon语)和双唇搭嘴 [](出现于西!Xoon语),从未出现在这些语言中。

表3:实验中比较的模型列表。“大小”列指每个模型的参数大小。“#语言”显示预训练中使用的语言数量。“搭嘴语言”列出包含在预训练数据中的具有搭嘴音的语言。ISO 639-3语言代码zul、xho、nde分别指祖鲁语、科萨语和北恩德贝勒语。

对于mms-1b-all,附加一个初始化的适配器(每个注意力块的语言特定线性投影层和一个词汇输出层);对于其他模型,附加一个初始化的词汇输出层。所有模型训练使用相同的超参数。对于模型配置,注意力dropout、隐藏层dropout、特征投影dropout和层dropout设置为0.0,掩码时间概率为0.05,CTC损失减少方法取批次平均值。每次训练运行10个epoch,学习率为0.0003,批次大小为8,优化器使用AdamW[loshchilov2019decoupledweightdecayregularization]。前100步作为预热步骤。模型在24GB A10 GPU上训练。微调一个300M参数的模型大约需要70分钟。我们使用字符错误率(CER)作为训练期间的验证指标。此外,我们报告了将多字素(例如,kx')和复杂

相似文章

自监督语音模型中音调上下文的感知补偿

arXiv cs.CL

本文研究wav2vec2.0架构在汉语普通话中是否表现出对音调上下文的感知补偿,发现与人类听众相比,自监督模型中的证据有限,并表明监督微调可能是实现此类音系抽象所必需的。

转录儿童语音:ASR性能与获取可靠的正字法转写

arXiv cs.CL

这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。