UR-BERT:通过通用罗马化和语音令牌预测实现大规模多语言TTS的文本编码器扩展

arXiv cs.CL 论文

摘要

UR-BERT提出了一种基于罗马化转录的文本编码器,用于大规模多语言TTS,通过使用通用罗马化和语音令牌预测目标,扩展到495种语言,以增强语音对齐和泛化到未见过的语言。

arXiv:2606.11681v1 公告类型:新 摘要:我们提出了UR-BERT,一种基于罗马化转录的文本到语音(TTS)编码器,用于大规模多语言TTS系统。传统的基于字形到音素(G2P)的方法由于可靠G2P资源的可用性有限,仅局限于约100种语言。相比之下,UR-BERT通过将多样的书写系统统一为共享的罗马化表示,扩展到495种语言。为了进一步增强语音保真度和文本-语音对齐,我们在训练期间引入了语音令牌预测目标,这鼓励编码器以数据高效的方式学习感知语音的语音表示。实验表明,基于UR-BERT构建的TTS系统在多种语言和资源条件下始终优于最近的文本编码器基线,并展示了对未见过的语言的强泛化能力。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:40

# 面向大规模多语言TTS的文本编码器扩展:通用罗马化与语音标记预测
来源: https://arxiv.org/html/2606.11681
Lee Ahn Choi Kang

###### 摘要

我们提出UR\-BERT,一种基于罗马化转录的文本到语音(TTS)编码器,用于大规模多语言TTS系统。传统的字素到音素(G2P)方法因可靠G2P资源有限,通常只能覆盖约100种语言。相比之下,UR\-BERT通过将多种书写系统统一为共享的罗马化表示,扩展至495种语言。为增强语音保真度和文本-语音对齐,我们在训练中引入语音标记预测目标,以数据高效的方式促使编码器学习感知语音的表示。实验表明,基于UR\-BERT构建的TTS系统在各种语言和资源条件下持续优于近期文本编码器基线,并展现出对未见语言的强泛化能力。

###### 关键词:

自监督学习,文本到语音,罗马化,多语言

### 1 绪论

神经文本到语音(TTS)系统在多种语言和说话风格上取得了显著进展。最近的方法大多采用编码器-解码器架构,其中编码器生成语言表示,再由解码器转换为声学特征或语音波形。尽管解码器模型随着流匹配和神经编解码器语言建模的引入而快速发展[tacotron, fastspeech2, glowtts, vits, gradtts, difftts, matchatts, f5tts, valle, speartts],编码器设计受到的关注相对较少。特别是,先前的工作主要关注语音充分性,以实现可靠的文本-语音对齐——这是TTS中反复出现的挑战。

与此同时,自监督学习的进展已在多个领域展现出强大的实证性能[bert, albert, roberta, wav2vec2, hubert, wavlm],激发了TTS文本编码器预训练方面的兴趣。这些模型捕获了超越纯语音线索的丰富上下文和语义信息,促使近期TTS系统纳入BERT风格表示以增强自然度。先前的研究[ebert1, ebert2, ebert3, ebert4]将BERT嵌入作为辅助输入来增强语音表示。然而,这种方法暴露了TTS文本编码器与通用语言模型之间的结构不匹配。具体而言,TTS系统通常以字符或音素级别运行,而BERT依赖于子词单元,造成粒度差异,使精确对齐和表示集成复杂化。

为缓解这种不匹配,后续工作提出从头预训练的BERT风格文本编码器,以更好地将语言表示与TTS需求对齐。早期方法[pngbert, mpbert]引入音素感知预训练作为核心设计原则,通过联合建模字素和音素单元来桥接文本与语音空间。在此基础上,后续扩展[plbert]简化了框架,仅在预训练期间同时使用字素和音素信息,而在下游使用时仅输入音素。最近的研究[styletts2, xphonebert]将音素级预训练扩展到多语言设置,证明基于音素的语言建模即使在使用多语言语料库训练时仍然有效。

尽管这些方法有效,但本质上依赖G2P工具包[phonemizer, charsiug2p]生成音素序列,这造成了系统性依赖,严重限制了可扩展性。这种依赖对实现真正的全球语言覆盖构成重大障碍,因为G2P系统通常仅适用于大约100种语言,而世界上绝大多数语言不受支持。此外,仅基于文本语料库预训练的编码器缺乏声学上下文接触,无法捕获对高质量TTS合成至关重要的细粒度韵律和语音相关线索。

为解决这些挑战,我们提出UR\-BERT¹,一种面向大规模多语言TTS(覆盖495种语言)的语音感知预训练文本编码器。我们采用罗马化作为语言无关的文本接口,替代语言特定的G2P系统,从而实现超越现有G2P流水线局限的可扩展覆盖。为进一步增强语音建模,我们引入基于语音标记预测的知识蒸馏目标。具体而言,多语言语音自监督模型(S3M)作为教师,UR\-BERT被训练来预测其输出标记,从而将文本表示与丰富的声学潜在空间对齐。这种对齐缓解了罗马化引入的语音抽象性,并缩小了文本-语音模态差距,同时实现了跨语言的可扩展性和高语音保真度。

在实验中,UR\-BERT在高资源和低资源场景下,跨越广泛语言和评估指标,持续优于先前的BERT风格TTS编码器,同时在不损害合成质量的前提下支持显著更多的语言。此外,即使使用减少的预训练数据量,模型仍保持强性能,这凸显了将罗马化与所提出的语音感知预训练策略相结合的效率。

参见图注 图1: UR\-BERT概览,展示预训练和微调阶段。我们的贡献总结如下:

- • 我们提出UR\-BERT,一种面向TTS的多语言文本编码器,在覆盖495种语言的语音-文本对上进行预训练。
- • 我们通过采用罗马化作为大规模多语言TTS的统一书写接口,克服了现有G2P流水线的语言覆盖限制。
- • 我们引入一种新颖的基于语音标记预测的预训练策略,将BERT风格文本表示与声学信息对齐,从而实现高质量的TTS合成。

### 2 相关工作

为将单语言文本嵌入扩展到多语言TTS编码器,近期工作采用了BERT风格预训练来获取文本表示。这一方向的早期尝试是StyleTTS2[styletts2]框架中引入的多语言PLBERT(m-PLBERT)²。遵循原始PL-BERT[plbert]的设计,m-PLBERT在来自15种语言的音素序列上进行预训练,这些音素通过Phonemizer[phonemizer]生成。然而,其语言覆盖仅限于相对高资源的语言,包括英语、中文及几种欧洲语言。随后,XPhoneBERT[xphonebert]通过使用CharsiuG2P[charsiug2p]在88种语言的音素序列上预训练,扩展了这一范式。虽然这显著增加了语言覆盖,但预训练数据仍集中在欧洲和亚洲语言中,许多非洲和美洲原住民语言的代表性有限。

将这些方法扩展到真正大量的语言仍然具有挑战性,因为它们高度依赖G2P系统。高质量的基于规则的G2P模块稀缺,即使现有工具包也只覆盖世界语言的一小部分。此外,零样本神经G2P替代方案通常表现出不稳定性能,进一步限制了它们对先前未见语言的适用性。

### 3 提出的方法

#### 3.1 架构概览

所提出的UR\-BERT的关键区别在于其语言可扩展性和训练目标。UR\-BERT采用罗马化作为统一文本表示,无需依赖G2P系统即可在多种书写系统上实现可扩展建模。它在跨越495种语言的语音-文本配对数据上进行预训练,使用标准BERT-base架构[bert],配备字符级分词器和12个Transformer编码器层[transformer]。除了传统的掩码语言建模(MLM)目标,UR\-BERT还引入语音标记预测(STP)作为辅助目标,在预训练期间注入文本条件化的声学信息。图1 (https://arxiv.org/html/2606.11681#S1.F1)展示了UR\-BERT的预训练和微调流水线,详细设计选择在以下小节中描述。

#### 3.2 面向语言可扩展性的罗马化

我们采用罗马化将多种正字法系统统一为拉丁字母,因为与基于音素的方法相比,它具有优越的可扩展性和标记效率。基于音素的方法依赖G2P系统,该系统需要大量语言专业知识来设计精细、语言特定的规则,从而限制了实际覆盖范围。结果,现有G2P工具包仅支持约100种语言,如CharsiuG2P[charsiug2p]的88种语言和Phonemizer[phonemizer]的127种语言。相比之下,罗马化通过将不同书写系统音译为共享的拉丁文字,实现了理论上无界的可扩展性,正如Uroman工具包[uroman]所示。这一优势已被证明可扩展到多种任务上的数千种语言,包括TTS[xtts]和自动语音识别(ASR)[mms, lamaut]。

传统的G2P系统使用国际音标(IPA)[ipa]将字素转换为语音表示。虽然IPA表示提供了细致的语音细节,但它们需要庞大且多样的符号库,通常跨越数千个符号,这大大增加了词汇量并使分词复杂化。例如,某些分词方案将韵律标记(如超音段特征和变音符号)视为独立标记,尽管它们缺乏独立的语音意义;而其他方案则将其与相邻的元音或辅音标记合并,导致标记粒度不一致。相比之下,罗马化将非拉丁文字音译为拉丁字符,将标记库限制在大约30个字母符号,并避免显式的韵律标记。这种紧凑的标记空间简化了分词并促进了更稳定的训练。此外,先前的工作表明,尽管词汇量减少,罗马化在广泛的语音相关任务中仍保留了足够的语音信息[xtts, mms, lamaut]。

#### 3.3 用于语音保真度的语音标记注入

尽管罗马化具有优势,但由于与IPA相比标记库有限,捕获细粒度语音区分仍然具有挑战性,特别是在相同的罗马化表示对应不同语言的不同发音时。为缓解这种声学歧义性,我们引入了一种知识蒸馏,在预训练期间从预训练的多语言语音自监督模型(S3M)[xlsr53, xlsr, mms, xeus, omnilingualasr]向UR\-BERT注入声学标记信息。

与需要干净、精心策划语音数据的传统TTS系统不同,我们的方法通过三个步骤将语音派生监督注入文本编码器,从而利用大规模ASR语音-文本对:(1) 从S3M提取语音表示,(2) 使用强制对齐将其与字符级文本对齐,(3) 将对齐后的表示离散化为语音标记,作为辅助训练目标。通过这一过程,ASR语料库被重构为可扩展的语音指导来源,使TTS模型能够受益于以前不适合语音合成的数据。

语音表示提取。我们使用omnilingual-ASR-W2V-300M模型³作为教师网络,并提取其第16层的表示。这一设计选择基于先前的发现:多语言S3M的中间层主要编码音素级信息而非高级语义表示[layerwise1, layerwise2]。

参见图注 图2: 基于CTC的语音-文本对齐示意图。

基于CTC的语音-文本对齐。语音-文本对齐的一个关键挑战来自序列长度不匹配,因为声学特征序列通常比文本对应序列长得多。为获得字符级声学表示,我们使用MMS-FA[mms]应用基于CTC的强制对齐,然后对每个字符的对齐帧进行平均池化。整体对齐过程如图2 (https://arxiv.org/html/2606.11681#S3.F2)所示。

离散标记分配。为离散化连续的字符级声学表示,我们在预训练语料库上执行k-means聚类以构建有限码本。每个字符级声学表示被分配至其最近的聚类中心,为每个罗马化字符产生一个离散语音标记。这些标记在预训练期间用作STP目标的监督,使UR\-BERT能够直接从文本输入推断声学信息。我们将码本大小设置为257,其中索引0表示静音标记,索引1-256对应声学标记。未考虑更大的码本,因为过高的容量往往编码说话者依赖或副语言变化而非音段内容[selm, diffkmeans],并可能由于与紧凑文本词汇不匹配而破坏训练稳定性。这一设计选择还受到语音学理论的启发,该理论将语音音素库存建模为有限数量的二元特征的经济组合[tokenlimit],在表示能力和语音抽象性之间取得平衡。

### 4 实验

#### 4.1 预训练

我们通过组合三个ASR数据集来构建预训练语料库:FLEURS[fleurs](涵盖102种朗读语音语言);Common Voice[commonvoice](众包数据集,覆盖131种语言);以及Omnilingual ASR语料库[omnilingualasr](包含348种低资源语言)。生成的预训练语料库包含约13K小时语音,覆盖495种语言,包含8M个句子,如表1 (https://arxiv.org/html/2606.11681#S4.T1)所示。预训练进行150K步,使用梯度累积,批大小为1024。我们采用AdamW[adamw]优化器,配合三阶段学习率调度[data2vec, wav2vec2, wavlm],预热、峰值和衰减比率分别为0.1、0.5和0.4,峰值学习率为1e-4。

#### 4.2 TTS微调

我们在高资源和低资源设置下共11种语言上进行下游TTS实验,所有数据集重采样至22,050 Hz。高资源组包括英语[ljspeech]、德语[thorsten]和普通话中文[aishell3],每种语言20小时训练数据。低资源组由八种亚洲和非洲语言组成:爪哇语、巽他语、高棉语、尼泊尔语[lowresourcedb1]、僧伽罗语[lowresourcedb2]、南非荷兰语、茨瓦纳语和科萨语[lowresourcedb3]。具体而言,爪哇语和巽他语使用5小时训练数据,高棉语3小时,南非荷兰语、尼泊尔语、茨瓦纳语和科萨语各2小时,僧伽罗语1小时,反映了每种语言可用数据的差异。

对于TTS建模,我们采用VITS[vits]作为骨干架构,并将其原始文本编码器与现有BERT风格编码器(包括m-PLBERT和XPhoneBERT)以及提出的UR\-BERT进行比较。低资源模型训练100K步,高资源模型训练300K步,两者批大小均为32,遵循MMS-TTS的训练协议。

相似文章

m3BERT:一种现代、多语言、套娃式双向编码器

arXiv cs.CL

本文介绍了m3BERT,一种多语言双向编码器,采用新颖的预训练策略,联合优化跨Transformer层和多个嵌入维度的表示,使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上,它显著优于现有最优模型。

OpenBMB/VoxCPM

GitHub Trending (daily)

OpenBMB发布VoxCPM2,一个2B参数的无分词器TTS模型,基于超过200万小时的多语言语音数据训练,支持30种语言、语音设计、可控克隆和48kHz输出。