使用发音音素识别评估语音发音合成

arXiv cs.CL 2026/05/21 04:00 论文

摘要

本文提出使用带有发音特征的音素识别来评估语音发音合成，解决了点对点距离等传统指标的局限性。在单说话人RT-MRI数据集上的实验表明，该方法能够捕捉语音细节并改进评估。

arXiv:2605.20920v1 Announce Type: new 摘要：机器学习的近期进展以及发音数据集的可用性，使得声道合成可以基于音素序列进行条件生成，这是发音语音合成的主要任务。然而，质量评估需要更好的定义。通常，由于主观性，对生成模型进行排名是棘手的。但发音合成还有一个额外的难点，即需要声道解剖学和声学方面的专业知识。为了解决这个问题，本文提出使用音素识别作为代理来评估语音发音合成。我们的假设是，使用发音特征进行音素识别能够更好地捕捉音素产生中的细微差别，例如正确的发音部位，而传统指标（如点对点距离指标）则无法做到这一点。我们使用从单说话人RT-MRI数据集中提取的声学和发音特征训练了一个神经网络。然后，我们比较了使用不同合成发音特征测试模型时的识别性能。结果表明，我们的发音特征集在语音学上丰富，有助于探索语音发音合成的更多维度。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:36

# 使用发音音素识别评估语音发音合成

来源：https://arxiv.org/html/2605.20920

###### 摘要

机器学习的最新进展和发音数据集的可用性，使得声道合成能够以语音序列为条件——这是发音语音合成的主要任务。然而，质量评估需要更好的定义。通常，由于主观性，对生成模型进行排序是棘手的。但发音合成还有一个额外的困难，即需要声道解剖学和声学方面的专业知识。为解决这一问题，本文提出使用音素识别作为代理来评估语音发音合成。

我们的假设是，使用发音特征进行音素识别能更好地捕捉音素产生的细微差别，例如正确的发音部位，而传统指标（例如逐点距离指标）则无法做到。我们使用从单说话人RT-MRI数据集中提取的声学和发音特征训练了一个神经网络。然后，我们比较了模型在使用不同合成发音特征进行测试时的识别性能。结果表明，我们的发音特征集在语音学上丰富，有助于探索语音发音合成的额外维度。

已被欧洲信号处理大会（EUSIPCO 2026）录用发表。

$\\dagger$$\\dagger$脚注：本工作是在作者于附属实验室攻读博士期间进行的。

## I. 引言

Ribeiro等人 [15 (https://arxiv.org/html/2605.20920#bib.bib4)] 描述了如何根据要发出的音素序列合成声道形状，并探索了几种合成语音过程中声道发音器的方法。基线方法是一种音素级平均轮廓方法，它计算单个说话人实时MRI（RT-MRI）数据集中每个音素的平均轮廓。然后，使用无模型 [12 (https://arxiv.org/html/2605.20920#bib.bib2),13 (https://arxiv.org/html/2605.20920#bib.bib3)] 和基于自动编码器 [14 (https://arxiv.org/html/2605.20920#bib.bib5)] 的声道形状合成器，从要发出的音素序列生成完整的声道形状。一方面，后两种模型始终优于基线，并且在点到最近点距离方面表现难分伯仲。另一方面，对声道变量的分析表明，基于自动编码器的方法能更好地学习发音部位，比无模型系统产生更精确的收缩。然而，评估合成发音特征的质量仍然是一个挑战。

逐点距离指标易于解释，但由于说话人内和说话人间的巨大变异性，其使用受限。相比之下，测量与每个目标音素相关的声道变量适合辅音，但不适合元音，因为元音的特征是谐振器的形状而非收缩。更好的元音指标是通过在合成声道中求解简化的气动声学方程来测量共振峰频率 [18 (https://arxiv.org/html/2605.20920#bib.bib17)]，但计算成本很高。然而，这两种指标对于所提出的两个模型而言都没有定论，仅在与非常简单的模型——音素级平均轮廓——进行比较时才令人满意。主观分析表明，使用无模型方法合成的语音听起来比基于自动编码器的系统更稳定、时间上更一致，但传统指标未能反映这种感知。

近期研究非常关注发音特征的分类及其在理解发音与声学关系以及神经网络如何映射两者方面的应用。Elie等人 [6 (https://arxiv.org/html/2605.20920#bib.bib19)] 在代价函数中使用音素识别概率作为可理解性的度量。Saha等人 [16 (https://arxiv.org/html/2605.20920#bib.bib6)] 训练了一个长时递归卷积网络，对来自17个说话人RT-MRI影片的51个VCV（元音-辅音-元音）语境进行分类，准确率达到42%。Van Leeuwen等人 [21 (https://arxiv.org/html/2605.20920#bib.bib7)] 训练了一个CNN，对来自静态中矢面MRI的持续音素（元音和擦音）进行分类，准确率达到57%。有趣的是，该模型学习到的表示与元音图一致，表明尽管准确率有限，但模型与标准语音学知识一致。在评估合成声道形状的问题上，Engwall [7 (https://arxiv.org/html/2605.20920#bib.bib8)] 使用发音分类器作为声学到发音逆映射的评估指标，对瑞典语句子中的VCV词汇使用线性估计和神经网络进行研究。Engwall的研究表明，发音分类器提供了比RMS误差和相关系数更易于理解的指标。受这些文章的启发，我们采取了类似的方向，使用音素识别来测量中矢面RT-MRI轮廓中的语音信息。我们分析了文献中声道形状合成器生成的语音发音，首先训练了一个基于声学信号的音素识别器作为基线，然后在真实的发音器轮廓（真实发音特征）上训练了识别器。由于中矢面RT-MRI不包括声带激励，我们添加了表示清浊音信息的分类编码。

我们通过比较识别误差（包括声学信号、有无浊音编码的真实发音特征）来量化声道轮廓保留的信息量。接下来，使用音素级平均轮廓、无模型和基于自动编码器的系统对测试集中的语音声道形状进行合成。将这些带有浊音编码的合成特征输入到用真实发音训练的音素识别器中。该测试的识别误差显示了合成器能够重现多少语音信息。我们假设，如果真实轮廓携带足够的信息，那么合成发音的识别性能也应与真实发音特征相当。

## II. 数据集

我们的语料库包含来自一名女性法语母语者2.5小时的语音。它由RT-MRI图像（50 Hz）、降噪后的音频信号和手动校正的语音标注组成。据我们所知，该数据库是单个说话人最大的动态MRI数据库，确保了训练过程的相关性。声学特征通过计算具有80个频带的Mel频谱图获得。使用Ribeiro等人 [11 (https://arxiv.org/html/2605.20920#bib.bib1)] 描述的方法从图像中提取了十个声道发音器的轮廓。这些轮廓也用于学习声学信号与声道形状之间的联系，这是我们发音到声学逆映射工作的一部分 [2 (https://arxiv.org/html/2605.20920#bib.bib22)]。发音器包括杓状软骨、会厌、下切牙、下唇、咽部、软腭、甲状软骨、舌头、上唇和声带。此外，上切牙用作坐标系的参考点，但不参与实验。图1中十个单独发音器的轮廓（\(x_i \in \mathbb{R}^{2 \times 50},~i\in[1,10]\)，其中50指每条曲线的采样点数）被拼接起来，构成一个2通道的发音特征向量，通道维度为x轴和y轴（\(x' \in \mathbb{R}^{2 \times 500}\)）。我们使用本工作的数据集训练了来自[13,14]的声道形状合成器，以获得合成发音特征。

参见图注：杓状软骨、会厌、下切牙、下唇、咽部、软腭、甲状软骨、舌头、上切牙、上唇、声带

图1：用于音素识别的发音特征，加上作为坐标系参考点的上切牙。

表I总结了每个数据集分割部分的话语数量和时长。语音词汇表包含50个标记，其中42个是语音标记，8个是非语音标记，代表空白标记、静音、未知标记以及 /i, e, u, y, ø/ 后的噪声。清塞音有两个阶段：闭合和爆破。因此，音素 /p, t, k/ 用两个标记表示，每个阶段一个。浊塞音的闭合和爆破阶段较难检测，因此我们决定不对其进行分割。为了评估，音素按其发音部位进行分组，如表II所示 – 表中未出现的音素归类为“其他”。

表I：训练集、验证集和测试集汇总。

| 数据集 | 话语数量 | 时长（分钟） |
|-------|---------|------------|
| 训练集 | 1 399  | 125.1      |
| 验证集 | 116    | 11.3       |
| 测试集 | 114    | 11.2       |
| 总计   | 1 629  | 147.6      |

表II：每个语音类别下的音素。发音部位相似的音素被分在一起。

| 语音类别       | 音素                              |
|---------------|----------------------------------|
| 齿音           | t, d, n, l, z, s                 |
| 唇音           | p, b, m, f, v                    |
| 腭音           | k, g, Z, S,                      |
| 前元音         | i, e, E, Ẽ/œ̃, j                |
| 后元音         | u, o, O, õ, w                    |
| 开元音         | a, ã                             |
| 前圆唇元音     | y, ø, œ, 4                      |

## III. 方法

将杓状软骨、会厌中心线、下切牙、下唇、咽部、软腭中心线、甲状软骨、舌头、上唇和声带的轮廓拼接起来构成发音特征。x坐标和y坐标构成一个2通道、500维的特征向量（10个发音器 × 每条曲线50个采样点）。合成发音特征是通过将测试话语输入到[15]中介绍的合成器中获得的，这些合成器返回合成发音特征。为了评估，音素按其发音部位分组（见表II）。

参见图注：(a) 适配器块 (b) 带一个残差CNN块和一个循环块的音素识别器架构

图2：音素识别网络架构。

音素识别器受Deep Speech 2 [1 (https://arxiv.org/html/2605.20920#bib.bib9)] 架构启发。网络包含卷积块，输入和输出之间带有残差连接，随后是循环块。最后，一个线性层块构成分类器。为了将发音特征适配到模型中，我们在初始卷积层之前添加了一个由线性层组成的适配器块，将500维张量转换为80维特征向量。当使用浊音编码时，它被添加到第一个卷积层的输出中。图2显示了网络架构的示意图。我们的实现使用了五个残差卷积块和三个循环块。

使用CTC损失 [8 (https://arxiv.org/html/2605.20920#bib.bib10)] 作为学习目标，音素错误率（PER）以莱文斯坦距离 [10 (https://arxiv.org/html/2605.20920#bib.bib11)] 衡量，作为评估指标。此外，我们计算了模型在分类器层之前立即计算的特征的t分布随机邻域嵌入（t-SNE）[20 (https://arxiv.org/html/2605.20920#bib.bib20)] 表示。网络使用Adam优化器 [9 (https://arxiv.org/html/2605.20920#bib.bib12)] 和循环学习率调度策略 [19 (https://arxiv.org/html/2605.20920#bib.bib13)] 进行训练。此外，我们对logits（softmax之前的模型输出）施加轻微高斯噪声作为正则化策略，同时使用L2正则化。

代码可在我们的Github仓库公开获取 ¹。

## IV. 结果

表III显示了每个特征集的PER。图4显示了每个模型学习到的音素表示的t-SNE图。在图4中，音素按其各自的语音类别分组，以便于阅读和可视化，并且只包含表II中列出的音素。

图3显示了音素识别的ASR混淆矩阵，音素按其语音类别分组。与传统分类任务中使用的混淆矩阵类似，行代表实际类别，列代表预测类别。每个单元格 \(c_{ij}\) 表示类别 \(i\) 被替换为类别 \(j\) 的次数；因此主对角线代表正确匹配。最后一列代表每个类别的删除，而最后一行代表每个类别的插入。需要强调的是，由于矩阵按真实标签归一化，删除列和插入行显示的信息不同。删除列中的元素 \(c_i\) 表示类别 \(i\) 被删除的百分比，而插入行中的元素 \(c_j\) 表示插入中类别 \(j\) 的百分比。

表III：有无浊音编码的声学和发音特征的PER。

| 特征集                          | 浊音编码 | PER   |
|-------------------------------|--------|-------|
| 声学特征                       | –      | 23.30 |
| 真实发音特征                   | 无     | 23.65 |
| 音素级平均轮廓发音特征         | 无     | 47.22 |
| 无模型发音特征                 | 无     | 24.34 |
| 基于自动编码器发音特征         | 无     | 38.85 |
| 真实发音特征                   | 有     | 21.66 |
| 音素级平均轮廓发音特征         | 有     | 43.18 |
| 无模型发音特征                 | 有     | 20.59 |
| 基于自动编码器发音特征         | 有     | 31.69 |

参见图注：(a) 声学信号 (b) 真实发音特征 + 浊音 (c) 无模型发音特征 + 浊音 (d) 基于自动编码器发音特征 + 浊音

图3：按真实标签归一化的音素识别混淆矩阵。建议以数字形式查看。

齿音、唇音、腭音、前元音、后元音、开元音、前圆唇元音

参见图注：(a) 声学信号 (b) 真实发音特征 + 浊音 (c) 无模型发音特征 + 浊音 (d) 基于自动编码器发音特征 + 浊音

图4：每个特征集的音素表示t-SNE图。建议以数字形式查看。

## V. 讨论

我们的模型与现有技术的比较需要谨慎。该任务的主要基准是TIMIT数据集 [5 (https://arxiv.org/html/2605.20920#bib.bib14)]；wav2vec [17 (https://arxiv.org/html/2605.20920#bib.bib15)] 报告了14.7的PER，wav2vec 2.0 [3 (https://arxiv.org/html/2605.20920#bib.bib16)] 报告了8.3的PER。然而，这些模型比我们的模型大得多，并且使用了海量数据训练。此外，我们录制的音频包含强烈的MRI噪声，并受到降噪算法的损害，而TIMIT具有干净的语音。尽管如此，

使用发音音素识别评估语音发音合成

相似文章

转录儿童语音：ASR性能与获取可靠的正字法转写

机器人模仿人类语音

Mega-ASR: 通过扩展真实世界声学模拟实现 In-the-wild^2 语音识别

越南语音中方言变化的语音建模

你的多模态语音模型说我长了一张适合广播的脸

提交意见反馈