迈向基于音系学的多语言TTS评估

arXiv cs.CL 2026/07/03 04:00 论文

multilingual-tts tts-evaluation phonology vowel-harmony assamese cross-domain-classification faithfulness

摘要

本文提出了一种基于分类器的框架，用于审计多语言TTS系统的音系忠实性，以阿萨姆语ATR元音和谐为案例研究。结果显示，Meta的MMS TTS频繁错误生成舌根前伸元音，而这种偏差在人类语音中不存在。

arXiv:2607.01965v1 Announce Type: new 摘要：神经TTS系统能在多种语言中听起来很自然，但自然度并不能保证保留区分词语及其语法形式的音质对比。像MOS这样的标准指标并未对此进行测试。我们提出了一种基于分类器的框架，以人类语音为基准，审计TTS输出是否符合特定语言的音系模式。通过使用Meta的MMS TTS测试阿萨姆语舌根前伸(ATR)元音和谐，我们展示了在人类语音上训练的分类器在迁移到合成语音时损失极小。忠实性审计揭示，[+ATR]中元音在1/3的标记中被实现为[-ATR]，尽管底层的规范是[+ATR]，这种偏差在人类语音中不存在。在词层面，预测的ATR标签比转录标签更准确地分类和谐，表明预期音系与生成音系之间存在差距。该框架提供了任务特定的诊断方法，并可推广到其他具有可测量声学线索的音系对比。

查看原文

查看缓存全文

缓存时间: 2026/07/03 05:42

# 面向音系学评估的多语言TTS

来源：https://arxiv.org/html/2607.01965  
Ray Barman Sharma Mahanta

Neeraj KumarShakuntala¹ 印度理工学院古瓦哈提分校语言科学与技术中心 ² 印度理工学院古瓦哈提分校梅赫塔家族数据科学与人工智能学院 ³ 印度理工学院古瓦哈提分校人文与社会科学系  
[\[sneha\.barman, neerajs, smahanta\]@iitg\.ac\.in](https://arxiv.org/html/2607.01965v1/mailto:%5Bsneha.barman,%20neerajs,%20smahanta%[email protected])

###### 摘要

神经TTS系统在多语言环境中可产生自然的语音，但自然度并不保证其能保留区分词语及其语法形式的音段对比。标准指标如MOS并未对此进行测试。我们提出一个基于分类器的框架，以人类语音为基准，对照特定语言的音系模式审计TTS输出。以阿萨姆语的舌根前移（ATR）元音和谐律为测试案例，对Meta的MMS TTS进行测试，我们发现，在人类语音上训练的分类器可以近乎无损地迁移到合成语音上。忠实性审计显示，尽管底层规范为[+ATR]，但约1/3的音段中，[+ATR]中元音被实现为[-ATR]，而这种偏差在人类语音中不存在。在词语层面，预测的ATR标签在和谐律分类上比转录标签更准确，表明意图音系与实际产出之间存在差距。该框架提供了任务特定的诊断方法，并可推广到其他具有可测量声学线索的音系对比。

###### 关键词：

TTS评估，元音和谐律，音系忠实性，跨域分类，阿萨姆语

## 1 背景

神经架构和训练数据的大规模扩展已迅速改善了多语言文本转语音（TTS）系统。基于平均意见得分（MOS）的标准评估指标侧重于感知自然度以及通过自动识别能否恢复词语。然而，听起来自然并不能保证系统重现语言的语音模式，尤其是当语法上下文决定哪些声音同时出现时。\[malisz2019modern\]表明，现代神经TTS已基本消除了与人类语音在感知自然度上的差距。这使得问题更加紧迫：如果系统在MOS上得分很高，系统的音系错误可能会完全未被发现。

主流评估范式依赖人类听力测试，最常见的是MOS和MUSHRA类协议\[mushra,itu\_p800,itu\_p910\]，这些协议通过Blizzard Challenge等基准建立\[blizzard2016\]。这些协议提供的是全局评级，而非关于系统是否保留特定音段对比或语法交替的有针对性证据。去语境化的听力测试假设存在一个稳定的、实际上并不存在的语音质量黄金标准，评估应改为任务特定和诊断性的\[wagner2019\_TTSevaluation\]。\[maguer2024moslimits\]对MOS研究的综述揭示了更多局限性，包括听者变异性、量表锚定效应，以及将多维语音质量压缩为一个单一无信息标量的问题。\[kirkland2023stuck\]调查了133篇近期TTS论文，发现大多数论文未报告如量表标签或增量等基本方法细节，并通过实验表明，即使测试说明的小小改动也能显著改变评分。

自动评估替代方法包括梅尔倒谱失真、频谱/F0误差、感知度量如PESQ\[pesq\_itu\_p862\]和STOI\[taal2011stoi\]、神经MOS预测器\[mosnet2019,nisqa2021,utmos2022,cooper2022generalization\]，以及基于ASR的可懂度（WER/CER）。基于嵌入比较的说话人相似度指标\[jia2018transfer\]将评估扩展到声纹身份，但未涉及音系结构。针对印度语言TTS的工作，包括IndicTTS语料库\[kumar2023\_indictts\]，以及多语言基准如Common Voice\[ardila\-etal\-2020\-commonvoice\]，一直依赖MOS和WER。虽然这些措施有助于跟踪整体质量和一致性，但其中没有一项测试能检验系统是否尊重区分语言、变体或口音的音系模式。音段级可懂度方法，如改进韵文测试\[house1965mrt\]和诊断韵文测试\[voiers1983drt\]，为有针对性的音系评估\[nye1973mrt\_tts\]建立了早期先例。音系特征已被用作低资源ASR的训练表示以支持跨语言迁移\[dalmia\_2020\]，而探测分类器已用于分析神经语音模型编码了哪些音系信息\[belinkov2019分析,deng1997universalphonfeat,probing\_phonology\]，但对多语言TTS的系统性音系诊断测试仍然罕见。

我们以阿萨姆语舌根前移（ATR）元音和谐律作为测试案例来填补这一空白。在阿萨姆语中，[+ATR]后缀元音（/i,u/）触发[-ATR]词干元音（/,/）的和谐，限制哪些元音质可以在一个词内共现\[mahanta\_directionality\_2008\]。元音和谐律是语言语法的一部分，一个TTS语音可能标准指标得分很高，但同时中和或错误放置了由和谐律调节的对比。参照跨语言关于ATR声学的研究结果\[hess1992assimilatory,olejarczuk2019acoustic\]，[+ATR]元音的第一共振峰频率（F1）和第一共振峰带宽（B1）低于对应的[-ATR]元音。一个未能维持这些区分的TTS系统将产生可测量的F1偏移，即使在听者听来输出可以接受，在人类语音上训练的分类器也能检测到。这些失败对于真实性、教育用途以及旨在代表而非仅仅近似语言多样性的包容性语音技术很重要。我们评估了Meta的大规模多语言语音（MMS）TTS\[pratap2024\_metamms\]，这是一个基于VITS的系统，覆盖1100多种语言，使用固定随机种子以确保不同运行间的确定性输出。我们提出了一个双任务评估流程：(i) 从人类语音学习声学到音系的映射，(ii) 将其跨域应用于合成语音，(iii) 在元音和词语层面总结方向性不匹配。该方法旨在可复制并可适应于其他具有可测量声学关联的音系系统。¹¹源代码和示例数据集：https://github.com/snehagitrep/TTSEvalVH_interspeech2026.git

## 2 材料与方法

### 2.1 数据和模型设置

**人类基准。** 我们通过录制14名来自上阿萨姆地区的成年母语阿萨姆语者（8名女性，6名男性）的语音创建了人类基准语料库。每位参与者朗读嵌入载句（`'moi X buli kolu'`，对应英语`'I say X'`）中的目标词（X）。我们手动从载句中切出目标词，并在Praat\[BoersmaWeenink2026\_praat\]中分割元音。使用FormantPro\[xu2018formantpro\]提取每个元音50%时间中点处的前三个共振峰测量值（F1, F2, F3）、第一共振峰带宽（B1），以及总元音时长（ms）。在进行跨说话人建模之前，我们对共振峰测量值进行了说话人级别的Lobanov归一化，以消除说话人之间的生理差异。根据阿萨姆语元音的语音和音系描述\[mahanta\_directionality\_2008\]，为每个词元分配了二值ATR标签（[+ATR], [-ATR]）以及两个附加特征：元音高度（有序：高=0, 中=1, 低=2）和舌位前后（二值：前=0, 后=1）。如果元音超出定义的异常值范围²²，则排除该元音，最终得到8125个元音（4793个[+ATR]，3332个[-ATR]）用于任务1。

表1：示例刺激，包含词元及分配的和谐类别。

**TTS数据集。** 使用Meta的MMS TTS模型（阿萨姆语版本：mms\-tts\-asm）通过Hugging Face³³在相同载句中合成目标词，使用固定随机种子以确保不同运行间的确定性输出。这是少数公开支持阿萨姆语的系统之一，使评估可复现。输出以16kHz单声道合成。TTS数据集包含114个词，其中80个与人类数据集重叠，34个是唯一的。唯一词包括和谐与不和谐的最小对，用于测试分类器对未见词汇项的预测准确性。我们遵循与人类语音相同的标注和声学测量协议。由于MMS TTS产生单一一致的语音，我们对整个TTS语料库进行全局z归一化，使用每个共振峰的语料库范围均值和标准差（即，在单一说话人的元音空间内进行z评分）。排除超出相同异常值范围的元音，最终得到281个元音（199个[+ATR]和82个[-ATR]）。

**刺激设计。** 根据表层ATR一致模式和底层ATR混合的存在，我们将目标词分为三类和谐类别：(i) AgrYesMixNo（所有元音在ATR类别上一致；无混合）（人类数据中N=2102，TTS数据中N=81），(ii) AgrYesMixYes（表层一致但存在混合ATR值）（人类数据中N=485，TTS中N=25），(iii) AgrNoMixYes（存在混合且ATR不一致）（人类数据中N=382，TTS中N=8）（参见表1三种和谐类别及示例词干和加后缀形式）。这些词级标签仅用于任务2和忠实性审计的分层细分。

### 2.2 任务1：元音级ATR分类

第一个分类任务（任务1）的主要目标是表征从人类语音学到的声学到ATR映射是否能在不显著损失分类精度的情况下转移到合成语音。我们在7个特征（前三个归一化共振峰、B1、时长、高度、舌位前后）上训练了逻辑回归（LR；L2惩罚，C=1.0，类权重=均衡，LBFGS求解器）和随机森林分类器（RF；200个估计器，min\_samples\_leaf=5，类权重=均衡），以预测二值ATR类别，然后将其跨域应用于合成语音。评估了四种跨域转移方向，以分离域内性能与域偏移。Human→Human（H→H），域内参考，使用按说话人的5折GroupKFold交叉验证。Human→TTS（H→TTS）在所有人类数据上训练，在TTS上测试。TTS→TTS在TTS语料库上单独使用5折分层交叉验证。TTS→Human在TTS上训练，在人类语音上测试。H→H与H→TTS之间的差距量化了TTS元音的声学结构与人类规范在同一音系类别上的差异程度。TTS→TTS与TTS→H之间的差距从另一域提供相同的诊断。性能以准确率（Acc）和宏平均F1（macro-F1）报告。

### 2.3 音系忠实性审计

我们将音系忠实性定义为TTS系统的声学输出在多大程度上保留了由输入文本的音系真实标签指定的类别级对比。审计比较每个元音（剔除错位元音后N=8053）的音系转录中的黄金ATR标签与任务1分类器从声学推断出的ATR标签。当这两个标签不一致时，记录为不匹配。我们区分两个错误方向：过度生成（当TTS为底层[-ATR]元音产生[+ATR]表面形式：黄金[-ATR]→预测[+ATR]）和欠生产（当系统在需要和谐的地方未能实现[+ATR]：黄金[+ATR]→预测[-ATR]）。这两个比率之间的不对称表明合成声学与预期音系类别之间的关系存在方向性偏差。对于TTS，预测由在所有人类元音上训练的LR分类器生成。对于人类语音，预测使用与任务1相同的5折说话人分隔方案进行折外预测，确保每个人类元音由从未见过该说话人的模型预测。这使得人类的不匹配率成为说话人分隔评估下分类器不确定性的一个真实参考点。我们报告按和谐类型和元音身份划分的总体不匹配率。

### 2.4 任务2：词级和谐分类

任务2根据每个词实例的元音序列将其分类为三种和谐类型之一。词级特征通过汇总每个话语中元音级别的测量值来计算。集合A（声学汇总；11个特征）使用各元音之间归一化共振峰特征、B1和时长的均值和标准差，以及第一个和最后一个元音的F1和元音数量来总结该词的声学特征。集合B（ATR序列汇总；7个特征）捕获元音序列的ATR概况：[+ATR]和[-ATR]元音的数量、[+ATR]比例、二值熵、多数ATR、全一致标志以及有序元音序列中的ATR切换次数。集合B以两个版本计算：B\_gold使用音系转录的真实ATR标签，而B\_pred使用任务1分类器预测的ATR标签。对于人类数据，B\_pred来自说话人分隔的折外预测以避免信息泄漏；对于TTS，B\_pred由在所有人类元音上训练的LR分类器生成。我们报告A、B\_pred、A+B\_gold和A+B\_pred。人类评估使用5折说话人分隔CV（2,969个实例）；TTS评估使用Human→TTS转移（114个实例），注意AgrNoMixYes更少（N=8）。结果针对RF分类器报告，该分类器比LR更擅长处理三类任务和非线性特征交互。

## 3 结果

### 3.1 任务1：元音级ATR分类

表2报告了两种模型在四个方向上的准确率（Acc）和宏F1。

表2：使用Lobanov归一化声学特征的跨域ATR分类。

我们观察到使用线性（LR）和非线性（RF）分类器进行跨域转移的两种不同结果。对于LR，H→H和H→TTS几乎相同（两种条件下Acc≃82%，宏F1稳定在0.81）。这些保持的分数意味着声学到ATR的映射在各域间是稳定的，但这并不意味着音系忠实性。RF实现了更高的域内性能（90.5% Acc），但显示了更大的转移差距（H→TTS为74.7%）。这一观察表明，该模型可能学习了更复杂的、受说话人调节的决策边界，这些边界不能很好地泛化到单一的合成语音。

仅TTS交叉验证（TTS→TTS）的宏F1为0.842（LR）和0.847（RF），大致与人类CV分数相当。鉴于两个数据集在大小、说话人数量和标签平衡上不同，我们不将这种相似性归因于TTS元音系统的特性。TTS→H方向的表现高于偶然水平（Acc≃80%–81%），但单个元音的细分显示//尤其...

迈向基于音系学的多语言TTS评估

相似文章

SamaVaani：印度语言多语言临床ASR的审计与去偏

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

基于音素的自动语音识别系统中的偏见评估：对IPA转录模型的分析

越南语音中方言变化的语音建模

从单语到多语：评估Mamba在南非语言中的ASR性能

提交意见反馈