从扁平语言标签到类型学先验:多语言语音到语音翻译的结构化语言条件
摘要
提出了S2ST-Omni 2,一个多对一的组合式语音到语音翻译框架,用结构化类型学先验取代扁平语言标签以改进多语言适配,在CVSS-C上取得了优越性能。
arXiv:2605.16026v1 公告类型: 新
摘要: 基于语音大语言模型(SpeechLLM)的组合式语音到语音翻译(S2ST)系统最近展现出有前景的性能。然而,现有的S2ST系统通常要么忽略源语言信息,要么通过语言即标签范式对其进行编码,将每种源语言表示为一个独立的扁平嵌入。这种设计忽略了跨语言共享的系统性语言结构,当监督式S2ST数据稀缺时,可能限制数据高效的多语言适配。为了解决这一问题,我们提出了S2ST-Omni 2,一个多对一的组合式S2ST框架,系统性地将多语言语言条件从扁平语言标签重新表述为结构化类型学先验。具体来说,S2ST-Omni 2在三个层面重新审视语言条件:用于结构化源语言表示的类型学感知分层语言编码,用于内容自适应声学调制的动态门控语言感知双CTC,以及用于解码端语言引导的类型学感知LLM提示。在CVSS-C上的实验表明,在采用的评估协议下,S2ST-Omni 2在BLEU、COMET、ASR-BLEU和BLASER 2.0指标上,在代表性的S2ST方法中取得了优越的平均性能。消融研究表明,所提出的表示级、声学级和解码级策略提供了互补的优势。此外,受控数据预算分析和仅使用约3小时监督训练数据的日译英评估表明,显式的类型学先验为数据高效的多语言S2ST提供了有用的归纳偏差。
查看缓存全文
缓存时间: 2026/05/18 06:35
# 从扁平语言标签到类型学先验:面向多语言语音到语音翻译的结构化语言条件 来源:https://arxiv.org/html/2605.16026 Yu Pan, Yang Hou, Xiongfei Wu, Liang Zhang, Yves LE TRAON, Lei Ma, Jianjun Zhao Yu Pan 在开展本研究时供职于九州大学信息科学与电气工程学院(日本福冈),目前任职于 Recho Inc.(东京) (电子邮箱:[email protected])。 Yang Hou 供职于国立信息学研究所(东京) (电子邮箱:[email protected])。 Xiongfei Wu 和 Yves LE TRAON 供职于卢森堡大学安全、可靠性与信任跨学科研究中心(SnT)(卢森堡) (电子邮箱:[email protected]; [email protected])。 Liang Zhang 供职于东华大学(上海 201620) (电子邮箱:[email protected])。 Lei Ma 供职于东京大学计算机科学系(东京 113-8656)以及阿尔伯塔大学电气与计算机工程系(埃德蒙顿,加拿大) (电子邮箱:[email protected])。 Jianjun Zhao 供职于九州大学信息科学与电气工程学院(福冈 819-0395) (电子邮箱:[email protected])。 ###### 摘要 基于语音大语言模型(SpeechLLMs)的组合式语音到语音翻译(S2ST)系统近期展现出令人瞩目的性能。然而,现有 S2ST 系统往往忽略源语言信息,或通过*语言作为标签*范式将其编码为独立的扁平嵌入。这种设计忽视了语言间共享的系统性语言结构,在监督 S2ST 数据稀缺时可能限制数据高效的多语言适配能力。为解决此问题,我们提出 S2ST-Omni 2,一个多对一的组合式 S2ST 框架,系统性地将多语言条件从扁平语言标签重构为结构化类型学先验。具体而言,S2ST-Omni 2 从三个层面重新审视语言条件:用于结构化源语言表示的类型学感知分层语言编码、用于内容自适应声学调制的动态门控语言感知 Dual-CTC,以及用于解码端语言引导的类型学感知 LLM 提示。在 CVSS-C 上的实验表明,在 BLEU、COMET、ASR-BLEU 和 BLASER 2.0 指标下,S2ST-Omni 2 在所采用的评估协议中取得了代表性 S2ST 方法中的平均最优性能。消融研究表明,所提出的表示级、声学级和解码级策略提供了互补优势。此外,控制数据量预算分析以及仅使用约 3 小时监督训练数据的日英翻译评估表明,显式类型学先验为数据高效的多语言 S2ST 提供了有用的归纳偏置。 ## I 引言 多语言语音到语音翻译(S2ST)旨在将口语语音直接翻译成另一种语言的语音,在医疗、教育、国际合作等跨语言交际场景中至关重要[24(https://arxiv.org/html/2605.16026#bib.bib6),27(https://arxiv.org/html/2605.16026#bib.bib1)]。 传统 S2ST 系统通常依赖级联的自动语音识别(ASR)[15(https://arxiv.org/html/2605.16026#bib.bib60),44(https://arxiv.org/html/2605.16026#bib.bib14)]、机器翻译(MT)[30(https://arxiv.org/html/2605.16026#bib.bib51),34(https://arxiv.org/html/2605.16026#bib.bib52)]和文本到语音合成(TTS)[10(https://arxiv.org/html/2605.16026#bib.bib18),5(https://arxiv.org/html/2605.16026#bib.bib21)]。尽管实践中有效,但这种流水线易产生错误传播且无法全局优化。因此,近期研究探索了端到端 S2ST[23(https://arxiv.org/html/2605.16026#bib.bib87),21(https://arxiv.org/html/2605.16026#bib.bib26),4(https://arxiv.org/html/2605.16026#bib.bib41)]和组合式 S2ST[12(https://arxiv.org/html/2605.16026#bib.bib65),13(https://arxiv.org/html/2605.16026#bib.bib24),32(https://arxiv.org/html/2605.16026#bib.bib94)]。其中,组合式 S2ST 将语音到文本翻译(S2TT)前端与 TTS 后端结合,在模块化、可解释性以及独立利用语音和文本资源的能力之间提供了实用平衡。 随着大语言模型(LLMs)[1(https://arxiv.org/html/2605.16026#bib.bib59),3(https://arxiv.org/html/2605.16026#bib.bib58),40(https://arxiv.org/html/2605.16026#bib.bib57)]的快速发展,语音感知 LLMs(SpeechLLMs)[46(https://arxiv.org/html/2605.16026#bib.bib64),19(https://arxiv.org/html/2605.16026#bib.bib53)]已成为多语言 S2ST[8(https://arxiv.org/html/2605.16026#bib.bib92),32(https://arxiv.org/html/2605.16026#bib.bib94),48(https://arxiv.org/html/2605.16026#bib.bib93)]的有前景基础。沿着这条路线,S2ST-Omni[32(https://arxiv.org/html/2605.16026#bib.bib94)]将语言标签条件引入基于 SpeechLLM 的组合式框架,实现了有效的多对一 S2ST。然而,其语言条件策略遵循*语言作为标签*范式,每个源语言被表示为孤立的标识符。这种扁平语言表示忽略了形态、重排序倾向和语言谱系关系等方面的系统性语言规律,这些规律会影响语音对齐、语义解释和目标语言生成[7(https://arxiv.org/html/2605.16026#bib.bib88),29(https://arxiv.org/html/2605.16026#bib.bib89),36(https://arxiv.org/html/2605.16026#bib.bib90),31(https://arxiv.org/html/2605.16026#bib.bib91)]。从这个角度看,多语言 S2ST 不仅应识别输入*属于哪种*语言,还应捕捉语言*表现出的结构属性*。因此,扁平语言嵌入可能不足以提供支持数据高效多语言适配的结构性先验[2(https://arxiv.org/html/2605.16026#bib.bib61),38(https://arxiv.org/html/2605.16026#bib.bib46)]。 本文中,我们提出 S2ST-Omni 2,一个类型学感知的组合式框架,用于多对一数据高效 S2ST。S2ST-Omni 2 建立在 S2ST-Omni 之上,保留了编码器-适配器-LLM-TTS 的主干结构,同时在三个层面重新设计了语言条件路径。首先,**类型学感知分层语言编码(TI-HLE)**将源语言信息分解为形态相关、重排序、语言谱系和剩余语言特定通道。其次,**动态门控语言感知 Dual-CTC**机制对多语言声学建模进行内容自适应帧级调制。第三,**类型学感知提示**将面向翻译的语言先验注入 LLM 解码。这些组件共同提供了对多语言条件的一种结构化、自适应且具语言基础的表述。我们在 CVSS-C[22(https://arxiv.org/html/2605.16026#bib.bib2)]上评估 S2ST-Omni 2,与代表性 S2ST 系统进行比较。与直接基线 S2ST-Omni 相比,S2ST-Omni 2 在 BLEU 上平均相对提升 5.8%,在 ASR-BLEU 上平均相对提升 4.6%,并在 COMET 和 BLASER 2.0 上取得一致改善。消融研究表明,所提出的表示级、声学级和解码级策略具有互补贡献。此外,控制数据量预算分析和有限监督条件下的日英翻译评估表明,当监督数据稀缺时,显式类型学先验尤其有益。 总结而言,本工作通过将扁平语言标签条件重构为结构化类型学条件,并提供了更广泛的实证评估,对 S2ST-Omni[32(https://arxiv.org/html/2605.16026#bib.bib94)]进行了实质性扩展。主要贡献如下: - • 我们提出 S2ST-Omni 2,一个类型学感知的组合式 S2ST 框架,将多语言条件从扁平语言标签重构为结构化类型学先验。 - • 我们引入 TI-HLE,将源语言信息分解为形态相关、重排序、语言谱系和剩余语言特定通道。 - • 我们提出**动态门控语言感知 Dual-CTC**机制和**类型学感知提示**,分别将类型学先验注入声学特征调制和基于 LLM 的解码。 - • 我们在 CVSS-C 上进行了广泛实验,包括消融研究、TTS 后端分析、数据量比较以及使用约 3 小时监督数据的日英翻译评估,为所评估的多语言 S2ST 设置中结构化类型学条件的有效性提供了实证证据。 参见图注图 1:S2ST-Omni 2 的整体架构和两阶段训练流水线。LA 表示语言感知,CE 是交叉熵,src/tgt 表示源/目标。TI-HLE 和动态门控 LA-Dual-CTC 是训练时的辅助模块,而类型学感知提示在推理阶段保留。 ## II 方法论 ### II-A 系统概述 如图 1(https://arxiv.org/html/2605.16026#S1.F1)所示,S2ST-Omni 2 遵循 S2ST-Omni[32(https://arxiv.org/html/2605.16026#bib.bib94)]的组合式设计,由基于 SpeechLLM 的 S2TT 前端和即插即用的 TTS 后端组成。前端包含五个主要组件:1)固定的 Whisper 编码器[37(https://arxiv.org/html/2605.16026#bib.bib33)],用于帧级声学-语义特征提取;2)继承自 S2ST-Omni 的混合语音适配器,将语音特征映射到 LLM 隐藏空间;3)**TI-HLE**模块,通过形态、重排序、语言谱系和剩余语言特定因素表示每个源语言;4)**动态门控语言感知 Dual-CTC**模块,对中间适配器特征应用类型学条件调制,并辅以源端和目标端 CTC 监督;5)由**类型学感知 LLM 提示**引导的 Qwen3-4B 解码器[43(https://arxiv.org/html/2605.16026#bib.bib3)],用于目标语言翻译。TTS 后端与 S2TT 前端解耦,允许无需重新训练即可集成不同的合成器。遵循 S2ST-Omni[32(https://arxiv.org/html/2605.16026#bib.bib94)],训练时源语言标识符从 ground-truth 标签获取,推理时从 Whisper 编码器表示预测。 与 S2ST-Omni 的关键区别在于语言条件路径。S2ST-Omni 2 并未修改整体 S2ST 主干,而是将扁平语言标签条件替换为在表示级、声学调制级和 LLM 解码级注入的结构化类型学先验。保持主干不变减少了架构混淆,并能在保留原始框架模块性的同时聚焦于对语言基础条件的检验。推理时,TI-HLE 和动态门控 LA-Dual-CTC 模块连同辅助 CTC 分支一起被丢弃;因此,它们仅作为训练时的类型学归纳偏置,不引入额外声学侧推理成本,也不改变编码器-适配器-LLM 的前向路径。推理时的唯一区别是根据预测的源语言选择的类型学感知提示。 ### II-B 混合语音适配器 我们采用 S2ST-Omni[32(https://arxiv.org/html/2605.16026#bib.bib94)]中的混合适配器来桥接固定的 Whisper 编码器和 Qwen3 LLM。该组件保持不变,以最小化架构混淆并隔离所提类型学感知条件的效果。给定 Whisper 编码器输出 \(X \in \mathbb{R}^{B \times T \times 1280}\),适配器首先将其投影到 \(d_h = 1024\) 的隐藏空间,应用两个核大小为 7 的局部深度可分离卷积块,以步长 2 下采样序列,然后使用两个全局自注意力块建模长程依赖。我们将下采样后的中间适配器特征记为 \(\mathbf{H}_{\mathrm{down}} \in \mathbb{R}^{B \times T' \times d_h}\),其中 \(d_h = 1024\),\(T' = \lceil T/2 \rceil\)。最后的线性投影将适配器输出映射到 LLM 隐藏维度 \(d_{\mathrm{llm}} = 3584\),得到 \(\mathbf{Z} \in \mathbb{R}^{B \times T' \times d_{\mathrm{llm}}}\) 用于 Qwen3 解码。该继承适配器的更多细节可参见 [32(https://arxiv.org/html/2605.16026#bib.bib94)]。 ### II-C 类型学感知分层语言编码 扁平语言条件将每个源语言视为孤立符号,没有显式暴露影响翻译行为的语言属性。受语言类型学和 NLP 中基于类型学的语言表示[7(https://arxiv.org/html/2605.16026#bib.bib88),29(https://arxiv.org/html/2605.16026#bib.bib89),36(https://arxiv.org/html/2605.16026#bib.bib90),31(https://arxiv.org/html/2605.16026#bib.bib91)]启发,我们通过将源语言信息分解为四个互补特征组来构建用于语音侧条件的类型学感知语言表示:形态相关特征、面向英语的重排序特征、语言谱系以及语言特定剩余通道。前三个组提供粗略但可解释的类型学先验,其分配总结于表 I(https://arxiv.org/html/2605.16026#S2.T1),而剩余通道保留未被这些类别捕获的细粒度语言特定信息。这些分配并非旨在作为详尽的语言分类;相反,它们是粗略的、面向翻译的特征,旨在编码与英语导向 S2ST 相关的反复出现的结构倾向。 表 I:S2ST-Omni 2 中使用的类型学特征分配。#### II-C1 类型学特征编码 对于每个源语言,我们用一个可学习嵌入 \(\mathbf{e}_m \in \mathbb{R}^{d_1}\) 编码形态相关特征。依据标准语言类型学[6(https://arxiv.org/html/2605.16026#bib.bib62),16(https://arxiv.org/html/2605.16026#bib.bib44)],法语和西班牙语被分配为融合型特征,德语为融合+复合型特征,日语为黏着型特征。该组为形态结构形式、能产性复合以及语音-文本对应提供先验。 接着,我们用一个可学习嵌入 \(\mathbf{e}_w \in \mathbb{R}^{d_2}\) 编码面向英语的重排序特征。基于类型学语序分类[9(https://arxiv.org/html/2605.16026#bib.bib47),17(https://arxiv.org/html/2605.16026#bib.bib49)]以及翻译成英语时的重排序需求,法语和西班牙语被分配为 SVO 导向特征,而德语和日语被分配为动词/从句末重排序特征。此分组并非暗示德语和日语共享相同的句法系统;而是反映两者在英语导向翻译中往往需要比法语和西班牙语更强的从句末或动词末重排序线索。 我们还用一个可学习嵌入 \(\mathbf{e}_f \in \mathbb{R}^{d_3}\) 编码语言谱系。受到 NLP 中跨语言结构和谱系方面先前工作的启发
相似文章
OpenSTBench:超越语义评估的语音翻译
OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。
多语言设计导向的调控:多语言稀疏自编码器与原则性层选择
本文介绍了一种基于原则的多语言语言调控方法,该方法使用在多语言数据上训练的稀疏自编码器(SAEs)以及一种基于多语言对齐与语言可分性交集的新型层选择规则,并在LLaMA-3.1-8B和Gemma-2-9B上针对机器翻译和跨语言摘要进行了评估。
大语言模型中的语言习得装置
本文提出了一种受LAD启发的预预训练方法,使用一种名为MP-Struct的形式语言,该语言编码了类自然语言结构。研究表明,这种方法提高了token效率,并赋予了模型类似人类的对结构不合理语言的抵抗力,挑战了先前关于有效预预训练语言的假设。
k2-fsa/OmniVoice
OmniVoice 是一款大规模多语言零样本文本转语音模型,支持超过 600 种语言,基于扩散语言模型架构构建,具备快速推理和语音克隆能力。
基于SpeechLLM的流式语音转文本翻译
提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。