wav2vec 2.0和Whisper关于非裔美国人英语中辅音丛简化现象的逐层探测研究

arXiv cs.CL 论文

摘要

本文采用逐层探测的方法,研究wav2vec 2.0和Whisper如何编码非裔美国人英语中的辅音丛简化现象,发现这两个模型均能区分简化形式和规范形式,并保留了底层塞音的线索。

arXiv:2606.23948v1 公告类型:新 摘要:自监督和监督语音模型越来越多地被用于研究其内部表示编码了哪些语言信息,以及以何种抽象层次进行编码。一个尚未充分探索的现象是非裔美国人英语(AAE)中的辅音丛简化(CCR),这是一种广泛的语音过程,也是自动语音识别(ASR)差异的来源之一。为了考察CCR是如何被表示的,我们对wav2vec2-base和Whisper-small进行了与说话人无关的逐层探测,使用了两个任务:音段简化检测和音段底层丛身份的恢复。两个模型均能以高准确率区分简化形式和规范形式。关键在于,简化后的音段保留了其底层塞音的线索,表明CCR被编码为结构化的梯度语音变化,而非简单的音段删除。这些结果证明了现代语音模型中对AAE CCR模式的结构化语音编码。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:44

# 对wav2vec 2.0和Whisper进行分层探测:非洲裔美国人英语中的辅音丛简化
来源:https://arxiv.org/html/2606.23948
Mojarad Tang

Kevin1Department of English Language and Linguistics, Institute of English and American Studies, Faculty of Arts and Humanities, Heinrich Heine University Düsseldorf, Germany 2Department of Linguistics, University of Florida, United States of Americahamid\.mojarad@hhu\.de, kevin\.tang@hhu\.de (https://arxiv.org/html/2606.23948v1/mailto:[email protected],%[email protected])

###### 摘要

自监督和监督语音模型越来越多地被用于研究其内部表示编码了哪些语言信息,以及这些信息在何种抽象层次上被编码。一个尚未充分探索的现象是非洲裔美国人英语(AAE)中的辅音丛简化(CCR),这是一种广泛存在的音系过程,也是自动语音识别(ASR)差异的一个来源。为了考察CCR是如何被表示的,我们使用两个任务——分段缩减检测和底层丛身份的分段恢复——对wav2vec2-base和Whisper-small进行了说话人无关的分层探测。两个模型都能以高准确率区分缩减形式和规范形式。至关重要的是,缩减分段保留了其底层塞音的线索,表明CCR被编码为结构化的渐变音系变异,而非简单的分段删除。这些结果证明了现代语音模型中对AAE CCR模式的结构化音系编码。

###### 关键词:

语音编码器,可解释性,辅音丛简化,自监督模型,监督模型,非洲裔美国人英语

## 1 引言

现代ASR系统在不同人口群体之间表现出显著的性能差异,其中AAE(一种由历史、社会和文化因素塑造的、有规则可循的英语变体)说话者的错误率尤其高[Mengesha_2021]。多项研究记录了商业ASR技术中的种族偏见,显示即使在控制年龄、性别和内容的情况下,AAE说话者的词错误率(WER)比非AAE说话者高出两倍[koenecke2020racial, martin20_interspeech, Martin2023]。这些差异部分源于训练数据偏向主流美国英语,以及AAE音系和形态句法特征的代表性不足[wassink2022uneven, Martin2023]。

### 1.1 ASR的内部运作

为了有效解决ASR偏见,有必要超越纯粹的基于错误的指标(如WER),考察自监督和监督语音模型如何在内部编码方言音系变异。研究人员越来越倾向于使用可解释性方法,尤其是对隐藏层表示进行线性探测,以揭示这些编码器内部发生了什么[parra-2025-interpretable, Pasad_2021]。

自监督模型(如wav2vec 2.0 [baevski2020wav2vec2])从大量未标记的音频中学习分层语音表示,使用卷积特征编码器后接Transformer编码器,并通过对比目标联合学习量化的潜在目标进行训练。这种设置使得仅从未标记音频中学习成为可能,无需转录。相比之下,监督模型(如Whisper [radford2023robust])采用完全监督的编码器-解码器Transformer架构,在大约68万小时的标记音频-文本数据上训练,用于直接的端到端转录。探测和分层分析已经涉及了多种语言方面,包括声学-语音属性[Pasad2023]、语音分类[cormac-english-etal-2022-domain]、口音/韵律变化[yang23v_interspeech],以及wav2vec 2.0和Whisper学习到的表示中的音节结构[a-shams-etal-2024-uncovering]和音素恢复[Shams2025],然而,像AAE中的CCR这样的特定方言音系过程在很大程度上仍未探索。

### 1.2 辅音丛简化

英语中的CCR通常被视为一种跨方言特征,而非某个特定社区独有的现象[Labov_1972, Schreier_2005]。这是一个系统性的音系过程,词尾辅音丛以模式化的方式简化[Wolfram_2017]。虽然简化受后续音系语境和丛本身属性的共同影响,但不同方言对这些制约因素的权重有所不同[Wolfram_2017, Guy_1991, Schreier_2005]。这种跨方言变异突显了CCR是一个结构化但对方言敏感的过程,受相互作用的音系制约因素支配[Wolfram_2017]。

AAE中的CCR通常涉及省略双辅音丛中的最后一个塞音(例如,test/tEst/ → [tEs])或三辅音丛中的倒数第二个辅音(例如,fists/fIsts/ → [fIs:])[Erik_Baily_2015]。先前的工作表明,包括CCR在内的与种族相关的方言特征会导致ASR在不同种族群体间的成功率不均。例如,Wassink等人[wassink2022uneven]在来自美国太平洋西北地区的多族裔样本(包括AAE说话者)上评估了一个商业ASR系统,发现非白人说话者的语音错误率系统性地更高,其中方言音系变异(包括CCR)导致了性能差异,突显了系统输出中的种族偏见。类似地,最近关于wav2vec 2.0的工作[mojarad25_interspeech]证实了CCR导致WER小幅度但显著增加,强调了其在针对AAE的ASR差异中的作用。

### 1.3 本研究

基于先前关于wav2vec 2.0中AAE相关偏见的证据性行为研究[mojarad25_interspeech],本研究旨在通过探测CCR如何在wav2vec 2.0和Whisper内部编码,来揭示这种偏见的根源。具体来说,我们进行了一项双管齐下的探测调查,以评估模型是将CCR视为跨层的简单分段删除任务,还是将缩减的实现形式视为更接近其规范对应物,以确定这些内部表示是否能揭示观察到的AAE相关偏见背后的机制。我们重点关注常见的双辅音丛(例如,/nt/, /nd/, /st/),并在冻结的编码器表示上执行两个领域信息探测[cormac-english-etal-2022-domain]:

- • 分段缩减检测:我们测试编码器表示是否能区分缩减的和规范的丛发音,从而评估最终塞音的存在与否是否跨模型层被显式编码。该探测直接评估每个模型对CCR的语音敏感性。
- • 分段恢复:我们考察缩减形式(例如,共享相同初始鼻音的底层/nt/或/nd/丛的仅鼻音实现)是否仍然携带着关于被删除的最终塞音的细微线索。这使我们能够测试语音编码器是否在内部重建了被删除分段的原始身份。

数据和代码可在osf.io (https://arxiv.org/html/2606.23948v1/osf.io)111https://doi.org/10.17605/OSF.IO/FE2D7 上获取。

## 2 相关工作

探测语音编码器已成为剖析语音理解中语言层次结构的标准方法[Pasad2023]。对于像wav2vec 2.0这样的自监督模型,Pasad等人[Pasad_2021]进行了详细的分层分析,表明早期Transformer层以低级声学线索为主,中间层最大化语音和音系信息,而较高层则越来越多地反映词汇和语义结构。补充性工作[cormac-english-etal-2022-domain, kim24l_interspeech]对wav2vec 2.0应用了语音和发音分类探测,表明分段类别和特征(例如,鼻音性、发音部位)在中间层编码得最为稳健。这些发现支持了从原始声学到日益抽象的语音和词汇表示的层次化转换。

最近,类似的探测方法也已应用于Whisper的监督编码器。关于病理性和口音语音的研究表明,Whisper的中层编码器对于偏离规范语音的语音和音系结构差异信息特别丰富。Batra等人[Batra_2025]报告称,不同种类的口吃不流畅与流利语音的最佳区分使用Whisper的中到后期层,而Yue等人[Yue_etal_2026]发现Whisper-medium的第13-15层在构音障碍语音检测和严重程度评估中表现最佳。

与我们研究更接近的是,Gessinger等人[Shams2025]研究了wav2vec 2.0和Whisper中的音素恢复。他们的研究将受控扰动(包括噪声叠加、噪声间隙或静音间隙)引入英语单词和伪词,然后探测模型的Transformer编码器层以重建发音特征(发音部位、方式、清浊)。他们测试了wav2vec 2.0和Whisper对这些降级刺激(模拟真实世界的噪声或中断)的表现。跨层的线性探测显示wav2vec 2.0具有更优的恢复能力,尤其是在通过词汇上下文对单词(相对于伪词)的恢复;噪声间隙最具破坏性,其次是静音间隙。这种设计类似于我们在AAE中计划进行的CCR分析,我们期望自然删除(例如,/st/ → /s/)会产生类似的“间隙”,从而测试模型从上下文中重建规范形式的能力。

尽管先前有工作探测wav2vec 2.0和Whisper的各种相关语言方面,但没有探测研究专门调查过AAE中的CCR,这是一种方言过程,其中表面删除被系统地预测为通过词汇上下文恢复规范音系。这一现象使我们能够测试wav2vec 2.0和Whisper是像人类听者那样在内部恢复被删除的分段,还是仅仅编码了表面实现形式。我们的双探针方法——*分段缩减检测*和*分段恢复*——应用于自然AAE数据,提供了对这种广泛方言模式的首次数计算分析。

## 3 方法

### 3.1 数据准备

#### 3.1.1 语料库

区域非裔美国人语言语料库(CORAAL)[farrington_corpus_2021]是本研究的基始数据集。该语料库提供了丰富的语言资源,包括带时间对齐的正字法转录(TextGrid格式)的音频录音,并在话语和词/音素对齐层级设有说话者特定层。

本研究使用了三个子语料库——DCA、DCB和DTA——共包含156名说话者(80名男性和76名女性)。这些子语料库代表了来自两个不同地理区域(华盛顿特区和底特律)的说话者,从而将区域变异纳入我们的数据集。此外,每个子语料库包含了四个年龄组和三个社会经济阶层的说话者。这种设计确保了在地理、性别、年龄和社会阶层方面的多样性,提供了一个广泛且具有社会代表性的样本,用于考察CCR并支持结果的更大泛化性。

#### 3.1.2 特征提取

为了提取与CCR相关的特征,我们采用了强制对齐,遵循Kendall等人[Kendall_ing_2021]的一般方法。在他们的研究中,社会语言变量(ING)的人工标注与强制对齐以及由机器学习库训练的分类器进行了比较,表明自动编码方法可以近似人类在分类ING变异方面的表现。在此方法基础上,我们采用了一个基于强制对齐的流水线,在我们分析中自动进行特征提取。

我们使用了Montreal Forced Aligner (MFA, 版本2.2.17; [mcauliffe17_interspeech]) 结合卡内基梅隆大学(CMU)发音词典。首先识别出CMU词典中缺失的单词,然后在CMU词表上训练一个字素到音素(G2P)模型,并为这些项目生成发音。生成的发音经过人工检查并添加到词典中。对于易受CCR影响的单词,我们基于其在CMU词典中的规范形式生成了缩减的发音变体;例如,单词test/tEst/的缩减形式为[tEs],删除了最后的/t/。使用MFA的train命令,我们在完整音频数据集上训练了一个自定义声学模型。然后使用这个训练好的模型结合扩展后的CMU发音词典对整个语料库进行强制对齐,所得的对齐结果构成了整个研究中对单词进行分类(规范或缩减)的基础。

#### 3.1.3 选择策略

跨CORAAL的三个子语料库的MFA对齐产生了超过85,000个来自易发生CCR的双辅音丛单词的标记,分布在48种丛类型中。由于大多数类型中标记稀缺,我们选择了12个高频丛,并确保其在缩减和规范实现之间内部平衡:/st/, /nd/, /md/, /nt/, /sk/, /mp/, /ft/, /St/, /t/, /pt/, /vd/, /zd/。我们排除了以/l/和/r/开头的丛(例如,/ld/, /lt/, /rd/, /rt/),因为它们会受到除CCR之外的其他音系过程的影响。具体来说,元音后的/l/可能发生L-元音化(例如,cold/koUld/ → [koUwd]),而当CCR也适用时,会产生[koUw]。元音后的/r/可能发生R-删除(例如,cart/ka:rt/ → [ka:t]),再加上CCR,变为[ka:]。这些过程混淆了对纯粹CCR效应的检测。

遵循Thomas和Bailey的理论框架[Erik_Baily_2015],我们通过将分析限制在单语素辅音丛,并排除双语素的过去时形式(例如,stunned /stVnd/, bussed /bVst/),进一步细化了数据集。这一限制确保了观察到的缩减模式反映的是音系偏好而非形态条件。最终得到的探测数据集包含七种丛类型(/ft/, /nd/, /nt/, /st/, /sk/, /pt/, /mp/),每种丛包含大致平衡的缩减和规范标记数量。

为了减轻丛内高频词(例如,just主导/st/,and主导/nd/)带来的词汇偏差,我们将占主导地位的词类型下采样至每个词最多400个标记(200个缩减 + 200个规范)。这确保了探测性能反映的是丛级别的音系对比,而非分类器对特定单词的词汇记忆。最终数据集包含6,760个标记(3,409个规范,3,351个缩减),分布在表1所示的7种丛类型中。此外,标记的选择还跨说话者进行了分配,以提高跨说话者的泛化性。

表1:AAE CCR平衡数据集摘要

### 3.2 模型与表示

#### 3.2.1 基于Transformer的模型

本研究探测了两个著名语音模型的表示:wav2vec2-base [baevski2020wav2vec2] 和 Whisper-small [radford2023robust]。两个模型都采用卷积特征提取器后接12层Transformer,嵌入维度为768,从而能够直接进行分层比较,了解它们如何编码像CCR这样的音系现象。

wav2vec2-base以自监督方式在960小时的英语LibriSpeech音频上进行预训练,使用对比目标对量化的潜在目标进行学习,在不依赖任何文本监督的情况下从原始声学中学习表示。相比之下,Whisper-small在约68万小时的音频-文本数据(约65%为英语ASR)上以监督多语言多任务方式进行训练,采用序列到序列架构。

相似文章

预训练的自监督语音模型能够识别未见过的辅音

arXiv cs.CL

本文研究了预训练的自监督语音模型(如Wav2Vec2和HuBERT)是否能够准确识别咔嗒辅音(click consonants),这些辅音在训练数据中较为罕见,通过在科伊桑语言(Khoisan languages)上进行微调来测试。结果表明,这些模型识别咔嗒辅音的准确率高于非咔嗒辅音,表明它们能够泛化到不常见的音素。

转录儿童语音:ASR性能与获取可靠的正字法转写

arXiv cs.CL

这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。

Whisper 介绍

OpenAI Blog

OpenAI 推出 Whisper,这是一个端到端的编码器-解码器 Transformer 模型,在大规模多样化音频数据上进行训练,可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%,并且在语音翻译方面优于有监督基准,尽管未针对特定数据集进行微调。

自监督语音模型中音调上下文的感知补偿

arXiv cs.CL

本文研究wav2vec2.0架构在汉语普通话中是否表现出对音调上下文的感知补偿,发现与人类听众相比,自监督模型中的证据有限,并表明监督微调可能是实现此类音系抽象所必需的。