Montreal Forced Aligner与2026年语音转文字对齐的现状

arXiv cs.CL 2026/06/18 04:00 论文

forced-alignment speech-to-text phonetic-segmentation open-source benchmark acoustic-model language-models

摘要

本文记录了Montreal Forced Aligner 3.0，一款广泛使用的开源强制对齐工具，在英语、日语和韩语上实现了最先进的性能，平均边界误差低于15毫秒。

arXiv:2606.18466v1 公告类型：新摘要：Montreal Forced Aligner（MFA）于2016年发布，此后成为研究和工业领域使用最广泛的强制对齐工具。在此后的十年里，MFA经历了重大发展，包括使用更大的开源数据集扩展覆盖更多语言和方言、统一IPA词典、模型自适应、跨语言音素映射以及支持工具。本文记录了MFA 3.0自1.0版以来的发展，并评估了MFA在英语、日语和韩语上的性能，对比了经典和神经强制对齐器。MFA 3.0在所有四个基准数据集上实现了最先进或接近最先进的性能，平均边界误差低于15毫秒。自适应和跨语言映射对于MFA训练分布之外的语言有效，而发音概率建模和音系规则在特定条件下提供了改善。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:45

# Montreal Forced Aligner 及 2026 年语音文本对齐现状  
来源：https://arxiv.org/html/2606.18466  
McAuliffe Gunter Wagner Sonderegger  

###### 摘要  

蒙特利尔强制对齐器（Montreal Forced Aligner, MFA）于 2016 年发布，此后成为研究和工业中使用最广泛的强制对齐工具。在此后的十年间，MFA 得到了显著发展，包括利用更大的开源数据集覆盖更多语言和方言、统一的 IPA 词典、模型自适应、跨语言音素映射以及辅助工具。本文记录了 MFA 3.0 自 1.0 版本以来的发展，并在英语、日语和韩语上评估了其性能，与经典和神经强制对齐器进行了基准测试。MFA 3.0 在所有四个基准数据集上均达到了最优或接近最优的性能，平均边界误差低于 15 毫秒。自适应和跨语言映射对于 MFA 训练分布之外的语言是有效的，发音概率建模和音系规则在特定条件下带来了提升。

###### 关键词：  

强制对齐、语音文本对齐、音素分割  

## 1 引言  

强制对齐，即根据给定的正交转录自动将单词和音素与语音记录进行时间对齐，已成为语言科学研究中（社会）语音学、语言记录和心理语言学等领域的标准第一步。过去 20 年间已开发出许多强制对齐器（例如 [yuan2008speaker, rosenfelder2011fave, kisler2012signal, gorman2011prosodylab]），该领域拥有适用于不同用例的健康工具生态系统。蒙特利尔强制对齐器 [mcauliffe_montreal_2017] 于 2016 年发布，已成为其中使用最广泛的工具。在这几年间，MFA 经历了重大发展，该领域也发生了巨大变化：提出了使用神经 ASR 架构的新对齐器，更大、更多样化的训练数据集变得可用，语言和用例的范围也扩大了。尽管如此，自其最初发布以来，尚未有系统性的评估将当前 MFA 与现有对齐器进行比较；现有的强制对齐器比较只考虑了少量对齐器，且/或限于英语，并使用不同的数据集和指标（例如 [mahr2021performance, rousso_tradition_2024, kelley2024mason]）。

与领域的进步同步，MFA 扩展了其核心功能，以利用新数据和工具，并解决语言研究流程中的常见瓶颈，包括整合转录、分词和语料库创建的库。本文的目标有两个：记录自 1.0 版以来 MFA 的关键发展，并提供 MFA 3.0 与目前可用的多种对齐器在三种语言上的系统基准测试。我们评估了 MFA 在实验室和对话语音中检测单词和音素边界的性能，并评估了 MFA 特有功能——自适应、跨语言映射、发音概率建模和音系规则——对对齐性能的贡献。MFA 3.0 在所有三种语言上均达到了最优性能，在大多数比较中优于经典和神经对齐器，平均边界误差始终低于 15 毫秒。

## 2 背景  

从 1.0 到 3.0，MFA 的发展受到强制对齐器在科学研究中*用例*的快速扩展以及可用*数据和工具*的推动。我们简要介绍每个方面，以引出第 3 节（https://arxiv.org/html/2606.18466#S3）中描述的 MFA 3.0 特性。

### 2.1 用例  

一个强制对齐器至少包含一个*声学模型*和一个*发音词典*；十年前，对齐器应用于少数高资源语言，¹¹¹ 除了 2012 年已支持 7 种语言的慕尼黑自动分割系统 (MAUS) [kisler2012signal]。并使用固定宽式转录词典，假设标准方言（例如 [kiesling_variation_2006, yuan2008speaker, gorman2011prosodylab, rosenfelder2011fave]）。

如今，强制对齐器被用于更广泛的语言、方言和说话人群体，包括低资源和濒危语言 [dicanio2013using, johnson2018forced, babinski2019robin, ahn2024use, tosolini2025multilingual]、多样化的方言 [mackenzie2020assessing, fromont2023maximizing]、儿童语言 [knowles2018examining, mahr2021performance, christodoulidou2025semi] 以及二语 (L2) 语音 [williams2024analysis]。这与 MFA（表 2 (https://arxiv.org/html/2606.18466#S3.T2)）以及其他对齐器 [kisler2012signal, bigi2012sppas, rehman2025bfa] 默认支持的语言数量的扩展相伴而行，这意味着该软件拥有预训练的声学模型以及发音词典或字素到音素 (G2P) 工具。

用例的扩展使得如何最好地训练和部署强制对齐器以适应训练数据之外的目标数据，成为一个独立的研究领域（例如 [ahn2024use, tosolini2025multilingual, christodoulidou2025semi, berez2023recent, coto2022computational, chodroff2025comparing]），并出现了三种主要策略：(1) 直接使用预训练的对齐器，依赖声学模型的鲁棒性。(2) 通过声学模型自适应或音素集映射，使预训练的对齐器适应目标语言、方言或人群。(3) 在目标领域数据上训练新的对齐器。

这些文献发现每种策略在不同的情况下都有效，但通常训练数据的数量和质量胜过语言特异性，在最大数据集上训练的模型（例如 MFA 3.0 Global-English）相比小型语言/方言专用模型具有竞争力或更好。策略 (2) 和 (3) 得益于易于*训练*的对齐器，始于 ProsodyLab 对齐器 [gorman2011prosodylab]，它是 MFA 的前身。这三种策略对应于本文实验中评估的 MFA 3.0 的三个特性：改进的预训练模型、自适应和映射，以及从头训练。

用例在语音细节方面也有所扩展，反映在发音词典中。随着强制对齐器越来越多地被用于通过选择同一单词的不同变体来研究语音变化，对反映方言形式和概率发音模型的窄式转录需求增长 [schiel1998probabilistic, yuan2009investigating, schuppler2011acoustic, ryant2016large, wu2022extracting]。这促使强制对齐器采用更广泛的发音词典，特别是 MFA 转向 IPA 音素集和可训练的发音概率（第 3.1.2 节 (https://arxiv.org/html/2606.18466#S3.SS1.SSS2)）。

### 2.2 数据和工具  

自 MFA 1.0 以来，可用于构建强制对齐器的数据和工具已大幅扩展。大型开源语音数据集——例如 CommonVoice [ardila_common_2020]、Multilingual LibriSpeech [Pratap2020MLSAL] 以及 OpenSLR 和其他平台上的许多数据集——使得在 MFA 3.0 中训练数百到数千小时的声学模型成为可能，这比十年前可用数据多了几个数量级。众包发音资源如 WikiPron [lee_massively_2020] 以及更好的字素到音素 (G2P) 系统 [gorman2016pynini, mortensen2018epitran, priva2021cross] 极大地扩展了跨语言的发音覆盖范围。与此同时，数据量的增加伴随着质量变异性的增加，推动了检查和修正数据集的工具开发：这是第 3.3 节 (https://arxiv.org/html/2606.18466#S3.SS3) 描述的 MFA 开发以及其它语音数据库系统 [fromont2012labb, winkelmann2017emu] 的关键部分。用于说话人日志（如 Pyannote [bredin_pyannote_2020]）和转录（如 WhisperX [bain_whisperx_2023]、SpeechBrain [ravanelli_speechbrain_2021]）的开源工具，使得端到端的自动化语料库处理和语音分析流程日益可行（例如 [ahn2022voxcommunis, coats2023pipeline]），这促使 MFA 与这些工具的集成（第 3.3 节 (https://arxiv.org/html/2606.18466#S3.SS3)）。

#### 2.2.1 神经架构  

十年前的强制对齐器是使用基于 HTK [young1993htk]、Julius [lee2001julius] 或 Kaldi [Povey_ASRU2011] 构建的经典 HMM-GMM 系统开发的，其中音素和单词边界是 ASR 过程的副产品。此后，ASR 领域通过神经架构取得了显著进展，端到端模型实现了低得多的词错误率。一些神经 ASR 系统输出单词边界并可用作强制对齐器，但并未针对精细的时间边界放置进行优化：没有发音词典和中间音素级表示，它们被训练为生成正确的输出字符串，而不是精确的帧级对齐，特别是基于 CTC 的系统明确地折叠了同一字符串的不同对齐 [rousso_tradition_2024]。我们使用更广泛的对齐器集（包括 NeMo [rastorgueva_nemo_2023]）复制并扩展了 [rousso_tradition_2024] 对 MFA 与基于神经 ASR 的对齐器的比较。

最近，已经开发出专门用于强制对齐或音素分割任务的神经系统，包括 Mason-Alberta 语音分割器（MAPS: [kelley2024mason]）、Charsiu [zhu2022charsiu] 以及伯恩茅斯强制对齐器（BFA: [rehman2025bfa]），取得了有竞争力的音素级对齐性能。我们在评估中包含了这些系统（第 5 节 (https://arxiv.org/html/2606.18466#S5)）。

## 3 蒙特利尔强制对齐器 3.0  

MFA 是一个开源命令行工具，提供 Windows、Mac OSX 和 Linux 的预构建可执行文件 [mcauliffe_montreal_2017]。MFA 3.0 在四个主要方面扩展了 1.0 版本。首先，它利用可用数据的增加，提供了扩展的预训练声学模型集，覆盖了更多语言及其中的语言/社会变异（第 3.1 节 (https://arxiv.org/html/2606.18466#S3.SS1)）。其次，对于默认支持不可用或不充分的用例，MFA 3.0 包含了用于使声学模型适应新语言和人群的工具（第 3.2 节 (https://arxiv.org/html/2606.18466#S3.SS2)）。第三，它与开源库集成，以促进语料库创建和逐步改进对齐（第 3.3 节 (https://arxiv.org/html/2606.18466#S3.SS3)）。最后，MFA 3.0 强调易用性和迭代改进为核心设计原则，提供文档和工具来支持对齐流程的每个阶段（第 3.4 节 (https://arxiv.org/html/2606.18466#S3.SS4)）。

### 3.1 预训练模型  

#### 3.1.1 训练数据  

MFA 1.0 的预训练模型和词典主要基于 GlobalPhone 语料库 [schultz_globalphone_2013]，其数据量从 8 小时到 30 小时不等，英语例外，它基于 1,000 小时的 LibriSpeech [panayotov_librispeech_2015] 进行训练。MFA 3.0 的预训练模型利用大型开源语音数据集，如 CommonVoice [ardila_common_2020] 和 OpenSLR 上的数据集（例如 Multilingual LibriSpeech [Pratap2020MLSAL]），在比 1.0 大几个数量级的数据上进行训练，如表 2 (https://arxiv.org/html/2606.18466#S3.T2) 所示。变异覆盖范围也有所增加。MFA 1.0 的数据集主要包含单个方言的数据（例如仅巴西葡萄牙语），而 MFA 3.0 包含多种方言（例如巴西和欧洲葡萄牙语），以提供更广泛的发音变异性覆盖。虽然几个数据集有明确的方言区域信息，但其他数据集未指定，并且包含数据集内的方言变异混合，偶尔还包括第二语言 (L2) 说话人。除了方言覆盖，这些数据集还涵盖多种语音风格（朗读和对话）、录音环境和噪音。用于训练每个 MFA 3.0 声学模型的语料库详情见 https://mfa-models.readthedocs.io/en/latest/acoustic/。

所有数据集都经过了大量的人工清理，以提高源发布版本的数据质量，我们认为这对于使预训练模型可行至关重要。遇到的问题类型包括转录错误、说话人标签缺失或错误、大量背景噪音以及各种元数据、文件格式和归一化错误。每个语料库都需要不同的准备和清理，这个过程是迭代的且由经验驱动：检查不佳的对齐、诊断错误、在整个语料库中修正问题，然后重复。这种方法促使了专用语料库创建和修正工具的开发（第 3.3 节 (https://arxiv.org/html/2606.18466#S3.SS3)）。尽管如此，鉴于数据的规模，一些错误仍然存在，许多数据集包含其他噪声源，如较差的音频质量，我们通过训练机制的结构来减轻这些影响。

#### 3.1.2 发音词典  

MFA 1.0 包含 20 种语言的词典，这些词典除英语、法语、德语外，大多源自 GlobalPhone 语料库 [schultz_globalphone_2014]，该语料库仅提供部分词条覆盖并且包含转录错误。对于 MFA 3.0，20 种核心支持语言（表 2 (https://arxiv.org/html/2606.18466#S3.T2)）的发音词典已重建，现在主要来自 WikiPron [lee_massively_2020]，该资源从 Wiktionary 抓取众包发音，提供更广泛的词条覆盖和更窄的语音变异。词典补充了在 cleaned 版本的 WikiPron 词典上训练的 G2P 模型。MFA 3.0 不再使用固定的语言特定音素集（如 MFA 1.0 中用于英语的 ARPAbet），而是使用跨语言统一的窄式 IPA 音素集，该音素集经过清理、标准化并扩展了跨语言基本音位变体规则的实现²²²https://mfa-models.readthedocs.io/en/latest/mfa_phone_set.html。可以通过 `mfa remap alignments` 将对齐映射到“宽式转录”，例如将 MFA 音素集映射到 ARPABET。，不过由于广泛使用，仍然提供英语 ARPAbet 模型。总而言之，MFA 3.0 为 22 种语言提供词典，另有 5 种语言（涵盖 15 种方言）的附加方言词典支持（见表 1）。其余 17 种语言的词典来自 WikiPron，其方言形式的描述和可用性有限。我们将方言视为未指定，但大多数形式可能来自标准变体。

通过集成 VoxCommunis 发音词典 [ahn2022voxcommunis]（使用 XPF [priva2021cross] 和 Epitran [mortensen2018epitran] G2P 系统生成），词典覆盖扩展到另外 34 种语言。MFA 托管这些词典，使用户能够在核心预训练模型未覆盖的语言中训练对齐器和对齐语料库。对于 21 种核心语言中的集外词 (OOV)，MFA 包含基于发音词典训练的结对 n-gram 模型的 G2P 功能，通过 Pynini [gorman2016pynini] 使用 Phonetisaurus [novak2016phonetisaurus] 的加权 FST 实现。

表 1：MFA 1.0（左）和 3.0（右）预训练模型的训练数据差异。3.0 中的新方言以下划线标出。
#### 3.1.3 训练机制  

MFA 3.0 训练建立在前版本的基础上。

Montreal Forced Aligner与2026年语音转文字对齐的现状

相似文章

easyaligner: 支持GPU加速和灵活文本归一化的强制对齐工具（兼容HF Hub上的所有w2v2模型）[P]

基于自监督表示和学习动态规划的多语言词级强制对齐

我们的对齐研究方法

2026年4月14日 | 对齐研究 | 自动化对齐研究者：利用大语言模型扩展可扩展监督

PolyAlign: 条件化人类分布对齐

提交意见反馈