发音策略作为声学元音动态变异的一个来源

arXiv cs.CL 论文

摘要

本研究使用来自36名发音人的超声舌成像数据,表明个体在发硬腭元音/i/时的发音策略系统地影响双元音中的声学共振峰动态,将舌运动模式与共振峰过渡的时间和陡度联系起来。

arXiv:2605.23416v1 Announce Type: new 摘要:声学元音动态具有一些说话人识别特征,这些特征被归因于发音策略的个体特性:共振峰过渡具有特定形状,因为说话人通过特定且熟练的动作移动其发音器官。然而,现有证据很少表明不同的发音策略系统地影响共振峰动态。本研究证实了两者之间的联系。使用来自36名北盎格鲁英语发音人的超声舌成像数据,识别出发硬腭元音/i/时的不同发音策略。发现/i/中的舌形状是含有硬腭离滑音的双元音中共振峰动态的重要预测因子。观察到的关系可以通过由声道形状调节的发音运动特征来解释。舌根和/或舌背的更大发音位移会导致硬腭元音中平均舌形状的更大扭曲,同时也需要更高的发音速度,从而导致相对更早且更陡的共振峰过渡。研究结果通过阐明发音补偿的规律性和个体性方面,有助于对言语个体性的概念理解。
查看原文
查看缓存全文

缓存时间: 2026/05/25 09:02

# 发音策略作为声学元音动态变异的一个来源

来源:https://arxiv.org/html/2605.23416

Patrycja Strycharczuk ([email protected])(https://arxiv.org/html/2605.23416v1/mailto:[email protected])  
曼彻斯特大学语言学与英语语言系,英国  
Sam Kirkham  
兰卡斯特大学语言学与英语语言系,英国  

###### 摘要

声学元音动态具有一些说话人识别特征,这些特征被归因于发音策略的个体特性:共振峰过渡具有特定形状,因为说话人以特定的、经过练习的方式移动发音器官。然而,目前鲜有证据表明不同的发音策略会系统性影响共振峰动态。本研究证实了二者之间的联系。利用来自36位北方盎格鲁英语说话人的超声舌位成像数据,识别出腭元音 /i/ 发音的不同发音策略。研究发现,/i/ 中的舌形是含有腭化后滑音的双元音共振峰动态的显著预测因子。观察到的关系可以通过由声道形状决定的发音运动特征来解释。舌根和/或舌背的更大发音位移会导致腭元音中平均舌形的更大扭曲,同时也需要更高的发音速度,从而导致相对更早、更陡的共振峰过渡。这些结果通过揭示发音补偿中的规律性和个体性方面,有助于从概念上理解言语的个体性。

## I 引言

### I.1 元音动态的说话人特异性

元音动态具有高度个体性。多项研究表明,共振峰值固有变化的测量包含一些说话人识别信息,并且与基于静态共振峰测量的模型相比,包含动态信息时说话人识别模型的性能往往会提升[30(https://arxiv.org/html/2605.23416#bib.bib30),33(https://arxiv.org/html/2605.23416#bib.bib33),38(https://arxiv.org/html/2605.23416#bib.bib38),39(https://arxiv.org/html/2605.23416#bib.bib39),13(https://arxiv.org/html/2605.23416#bib.bib13),11(https://arxiv.org/html/2605.23416#bib.bib11)]。当声学信息与发音信息相结合时,也观察到类似的改进[18(https://arxiv.org/html/2605.23416#bib.bib18)]。此外,有观察表明,动态信息对说话人特异性的贡献对于双元音性更强的元音相对更大,而当元音内部固有变化较小时则更为有限[13(https://arxiv.org/html/2605.23416#bib.bib13),11(https://arxiv.org/html/2605.23416#bib.bib11)]。

关于共振峰动态说话人特异性特征的一个主要解释线索集中在用于实现特定声学目标的发音运动的个体差异上[36(https://arxiv.org/html/2605.23416#bib.bib36),29(https://arxiv.org/html/2605.23416#bib.bib29),30(https://arxiv.org/html/2605.23416#bib.bib30),31(https://arxiv.org/html/2605.23416#bib.bib31)]。根据 Nolan(https://arxiv.org/html/2605.23416#bib.bib35)[1983(https://arxiv.org/html/2605.23416#bib.bib35)]的说话人间变异来源模型,在给定相同语音表征的情况下,说话人有灵活性通过不同的实现规则来达到其主要听觉目标,这些规则本身受到声道和发音器官的构型及动态特性的影响和约束。元音产生的发音策略因人而异[16(https://arxiv.org/html/2605.23416#bib.bib16)],既反映了解剖学差异,也反映了练习过的发音习惯。有人假设,这些类型的个体特征在发音目标之间的运动中更为直接可见。过渡中变异性增加的可能原因包括目标在感知上的特权地位[31(https://arxiv.org/html/2605.23416#bib.bib31),33(https://arxiv.org/html/2605.23416#bib.bib33)],以及语音的量子特性[46(https://arxiv.org/html/2605.23416#bib.bib46)],语音系统倾向于优先选择那些在发音变异存在时仍具有声学稳定性的语音变体。这种偏好并不扩展到目标之间的运动,因此预测过渡将允许更大的声学变异性[36(https://arxiv.org/html/2605.23416#bib.bib36)]。

关于发音策略导致声学元音动态个体变异的假设激发了大量法语音学研究,但尚未得到直接验证。一些间接支持语音动态个体变异发音基础的研究来自同卵双胞胎的语音学研究。Weirich [53(https://arxiv.org/html/2605.23416#bib.bib53)]报告了同卵双胞胎和异卵双胞胎之间的不同相似程度,并且这些差异与测量类型(静态 vs. 动态)存在交互作用。同卵双胞胎在动态测量(辅音-元音过渡)上表现出更大的相似性,而在静态测量上则没有。这些发现可以归因于双胞胎共有的发音策略,前提是这种策略受到解剖学差异的影响。此外,由于在过渡中观察到差异而静态目标中没有,这支持了如下假设:声学过渡比目标测量更可能反映个体发音变异。

### I.2 发音策略与声学变异之间的关系

文献中缺乏能够明确将特定发音策略与特定元音声学差异联系起来的证据。Noiray 等人[34(https://arxiv.org/html/2605.23416#bib.bib34)]表明,在美式英语中,用于产生 /I/-/e/ 对立的舌体高度差异会转化为 F1 的系统性差异。几项研究观察到男性和女性之间的发音差异,例如女性下颌张开更大[54(https://arxiv.org/html/2605.23416#bib.bib54),47(https://arxiv.org/html/2605.23416#bib.bib47)],以及男性倾向于发音欠冲[55(https://arxiv.org/html/2605.23416#bib.bib55)],这些与声学差异相关,尤其是女性具有更大的声学元音空间。然而,相关例子相对较少,而大量发音文献则强调不同发音策略所产生的相对声学不变性。发音策略的普遍可塑性通过由机械或听觉扰动引发的发音补偿研究发现得到证明。正常发音受到干扰(例如咬块存在)的说话人会调整其发音以接近其习惯的声学目标[8(https://arxiv.org/html/2605.23416#bib.bib8),32(https://arxiv.org/html/2605.23416#bib.bib32)]。当说话者接收到的声学反馈被实验性改变时,在某些说话者中也观察到类似的适应[12(https://arxiv.org/html/2605.23416#bib.bib12),9(https://arxiv.org/html/2605.23416#bib.bib9)]。这些类型的适应突显了声学不变性相对于发音习惯的重要性。经典言语感知理论假定声学不变性在语音学-音系学映射以及建立声音与意义之间的联系中发挥关键作用[3(https://arxiv.org/html/2605.23416#bib.bib3),25(https://arxiv.org/html/2605.23416#bib.bib25)],尽管识别这种规则映射常常具有挑战性[37(https://arxiv.org/html/2605.23416#bib.bib37)]。从社会语言学角度来看,产生相似的声学目标起到索引性作用,例如用于标志社会类别成员身份[6(https://arxiv.org/html/2605.23416#bib.bib6),7(https://arxiv.org/html/2605.23416#bib.bib7)]。

声学不变性被认为是驱动发音策略个体差异的主要因素:说话人需要克服其声道形状和大小的个体差异才能产生相似的声音。言语中补偿机制的存在通过声道形态与发音策略之间的关系得到证明。Serrurier 和 Neuschaefer-Rube [43(https://arxiv.org/html/2605.23416#bib.bib43)]建立了若干此类相关性。例如,他们发现声道的水平和垂直尺寸与用于实现共振峰操作的舌体运动主矢量之间存在关系。声道相对较大的说话者倾向于更依赖舌体的前后位移,而较小的声道则与更多的上下位移相关。此外,相对较平且更靠后的腭部的说话者倾向于通过下颌运动实现 F1 操作,而腭部更圆顶且更靠前的说话者则更依赖舌体运动。Johnson [15(https://arxiv.org/html/2605.23416#bib.bib15)]也观察到了腭形(特别是圆顶度)与下颌运动之间的类似关系。

对腭形的补偿在腭元音(尤其是 /i/)的产生中已有充分记载。¹¹注意,此处的补偿指的是完整的旁矢状面形态,而不仅仅是中矢状面。Hasegawa-Johnson 等人[10(https://arxiv.org/html/2605.23416#bib.bib10)]证明,对于腭元音 /i, e, I, E/,舌高与腭高密切相关,但在软腭元音、咽元音或小舌元音中则没有这种相关性。舌高和腭穹高度定义为从连接上颌龈缘的线的垂直距离。此外,与其他元音相比,腭元音中腭与舌之间的区域在说话人之间更为稳定。²²一位审稿人指出,不同元音之间变异性的比较因特定语言中元音库存的特性而复杂化,例如,同一区域存在多个元音可能会限制变异性。另一位审稿人指出,舌支撑可能增加腭元音的相对稳定性。这些发现表明,控制声道狭窄程度对于实现高元音的声学目标很重要。

Lammert 等人[22(https://arxiv.org/html/2605.23416#bib.bib22),23(https://arxiv.org/html/2605.23416#bib.bib23)]进一步提供了高元音舌形与腭形之间系统性关系的证据。他们识别出三个参数系统地捕捉腭形的个体变异:腭凹度(腭顶点高度)、前向性(腭顶点位置)和尖锐度(腭顶点处的形状)。根据 Lammert 等人[22(https://arxiv.org/html/2605.23416#bib.bib22)]的建模,这种类型的形态变异有可能实质性地影响前三个元音共振峰。例如,F1 的频率随腭凹度增大而增加,而 F2 的频率则降低。然而,在具有不同腭形的个体的言语中并未检测到相应的声学变异。相反,说话者调整其舌形以补偿腭形的变异;例如,腭部更凹的说话者在腭区产生更多的舌抬高。Serrurier 和 Neuschaefer-Rube [42(https://arxiv.org/html/2605.23416#bib.bib42)]在更大的 41 名说话者样本中证实了腭形与平均舌形之间的相关性。Brunner 等人[5(https://arxiv.org/html/2605.23416#bib.bib5)]观察到发音和声学变异性与腭形之间的系统性关系。具体来说,他们发现(横截面)腭部平坦的说话者与腭部圆顶的说话者相比,表现出更少的发音变异性。Brunner 等人(https://arxiv.org/html/2605.23416#bib.bib5)提出,这是因为相同程度的舌动作用于腭部较平坦时,由于声道比例较小,对声道面积函数的影响更大。因此,声学不变性似乎通过补偿机制驱动发音策略的变异。

### I.3 本研究

如我们所见,元音动态的说话人特异性是一个已确立的经验观察结果,并已被归因于发音策略的个体差异,其中这种差异可能部分是由于对声道形态个体差异的补偿。另一方面,关于发音变异和发音-声学关系的研究指向了相当不同的方向,强调发音变异在很大程度上是为了减少个体声学差异。然而,声学补偿的证据主要基于静态测量。虽然补偿行为无疑是塑造说话人达到特定声学目标策略的重要因素,但对其对声学信号动态特性的影响知之甚少。考虑动态因素至关重要,因为法语音学发现声学动态有助于说话人特异性,并且发音运动起着潜在作用。个体发音策略涉及不同发音器官的不同程度位移。由于可塑性和质量的差异,发音器官的固有速度各不相同。因此,我们可以预期,朝向固定目标的声学过渡可能反映所涉及关键发音器官的不同动态特性。

本研究通过北方盎格鲁英语 I-双元音 /i, eI, aI, oI/ 的案例研究,考察发音策略作为影响元音动态的因素的作用。注意,虽然为方便起见我们使用 /i/ 符号,但我们认为 /i/ 是一个双元音,因为它可能具有双元音性质 [iI],并且在结构上像双元音一样表现[48(https://arxiv.org/html/2605.23416#bib.bib48),49(https://arxiv.org/html/2605.23416#bib.bib49)]。我们的研究基于 TarDiS 语料库[48(https://arxiv.org/html/2605.23416#bib.bib48),49(https://arxiv.org/html/2605.23416#bib.bib49)]中 36 名说话人的超声和声学数据。

总体而言,双元音提供了一个引人注目的案例研究,因为它们本质上是动态的。此外,英语双元音形成一个连贯的子系统,这为检查各种不同的发音位移提供了机会,从 [iI] 中的小变化到 [aI] 中遍历声道的大部分区域。同时,所有这些元音都具有相似质量的后滑音,这使我们能够比较朝向该后滑音的过渡在不同起点之间是否以类似的方式变化。

我们研究说话人在 /i/ 元音和双元音中的共振峰动态是否受到其 /i/ 发音策略的系统性影响。作为这种策略的代理,我们使用 /i/ 中矢状舌形的归一化测量。具体来说,我们测试 /i/ 中的舌形是否是共振峰轨迹形状的显著预测因子。这只是众多可能预测因子之一。例如,共振峰动态以及发音策略都受到性别的系统性影响[47(https://arxiv.org/html/2605.23416#bib.bib47)]。在这里,我们重点将 /i/ 作为预测因子。

相似文章

越南语音中方言变化的语音建模

arXiv cs.CL

本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。

使用发音音素识别评估语音发音合成

arXiv cs.CL

本文提出使用带有发音特征的音素识别来评估语音发音合成,解决了点对点距离等传统指标的局限性。在单说话人RT-MRI数据集上的实验表明,该方法能够捕捉语音细节并改进评估。

当视觉为声音代言

Hugging Face Daily Papers

本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。