NaturalFlow：减少同时语音翻译中干扰性停顿以促进自然语音流畅

arXiv cs.CL 2026/06/12 04:00 论文

摘要

本文介绍了NaturalFlow，一种流畅性感知的优化框架，它通过利用模型内部信号减少同时语音翻译中的干扰性停顿，在低延迟和自然语音流畅之间取得平衡。

arXiv:2606.13121v1 公告类型：新论文摘要：同时语音到语音翻译旨在通过最小化延迟实现近实时通信，为延迟较高的顺次翻译提供了一种有吸引力的实时替代方案。然而，过度追求低延迟往往会导致碎片化的逐块语音。因此，听众会听到不自然的声学流，其中频繁出现停顿，这可能增加他们的认知负担。为了弥合这一差距，我们引入了一种流畅性感知的优化框架，旨在找到同时翻译的低延迟优势与顺次翻译的自然流畅之间的最佳平衡点。我们的框架通过利用模型内部信号（包括语言多样性和诱导的语音时长时间变异性）最小化块间静音。在短文本和长文本基准上的实验表明，我们的框架在保持竞争性延迟和翻译质量的同时，产生了自然的语音流畅。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:51

# NaturalFlow: 减少同声语音翻译中破坏性停顿以实现自然语音流
来源：https://arxiv.org/html/2606.13121
Lee Cho Park Kim†Yoon†

YounghoSangkwonHeeseungSungroh1IPAI and2ECE, 首尔大学, 首尔, 08826, 韩国 3人工智能系, 首尔市立大学, 首尔, 02504, 韩国
\{dwsmart32, youngh36, tkdrnjs0621, sryoon\}@snu\.ac\.kr gmltmd789@uos\.ac\.kr (https://arxiv.org/html/2606.13121v1/mailto:%7Bdwsmart32,%20youngh36,%20tkdrnjs0621,%20sryoon%[email protected]%20%E2%80%[email protected])

###### 摘要

同声语音翻译旨在通过最小化延迟实现近乎实时的通信，为延迟较高的连续翻译提供了一种有吸引力的实时替代方案。然而，过度追求低延迟往往会导致碎片化的块状语音。因此，听众会听到被频繁停顿打断的不自然声学流，这可能增加他们的认知负荷。为了弥补这一差距，我们引入了一个流畅性感知优化框架，旨在探索同声翻译的低延迟优势与连续翻译的自然流畅性之间的平衡点。我们的框架通过利用模型内部信号（包括语言多样性和语音持续时间的诱导时间变异性）来最小化块间沉默。在短句和长段基准测试上的实验表明，我们的框架在保持竞争性延迟和翻译质量的同时，能够产生自然的语音流。

###### 关键词：

语音到语音翻译，直接偏好优化

## 1 引言

语音翻译通常分为两种范式：连续翻译和同声翻译。连续翻译仅在收到完整语句后才生成目标语音，确保高翻译保真度和自然、连续的声学流，但代价是显著的延迟。相比之下，同声翻译大幅减少了这种延迟，但引入了深刻的认知挑战。正如"走钢丝"假说[Gile1999]所述，人工同声口译员必须持续协调听、记忆和语音产出。为了管理这种巨大的认知负荷并控制延迟，口译员被迫对输入进行分段，并以短促、不连贯的爆发方式传递信息，从而导致本质上碎片化的声学输出[Gile1999, Garcia2020]。

受这些挑战的启发，大量研究工作致力于推动机器同声语音翻译（Simul-S2ST）的发展。从支持流式ASR和解码过程的级联架构[direct_simul_chen_2021]到端到端模型[seamless_communication_2023, streamspeech_zhang_2024, hibiki_labiausse_2025]，最近的突破显著缩小了连续翻译与同声翻译系统之间的性能差距。然而，为了追求最小延迟，当前的语音到语音翻译（S2ST）模型往往会生成碎片化的输出，类似于人工口译员。通过依赖刚性、逐块的策略[stacl_ma_2019]——一旦积累了足够的语义上下文就释放部分内容——这些系统生成的语音充满了频繁的停顿和不自然的声学流。

这种不流畅对最终用户有重大影响。先前关于同声口译的研究[Rennert2010]表明，碎片化语音会显著降低人类对翻译质量的判断。即使信息内容得以保留，频繁的停顿和不流畅也会对听众对准确性和整体可理解性的感知产生负面影响[Rennert2010, christodoulides2014prosodic]。尽管流畅性是用户体验的关键组成部分，但当前S2ST研究主要集中在优化传统的质量-延迟权衡上，例如平衡BLEU分数与延迟相关指标，而由停顿驱动的声学流的优化则相对未被充分探索[seamless_communication_2023, stacl_ma_2019]。

为了解决这一挑战，我们引入了一个流畅性感知优化框架，旨在通过利用大型语言模型（LLM）固有的生成灵活性来最小化翻译块之间的不自然停顿。由于基于LLM的翻译模型估计了覆盖庞大词汇表的概率分布，它们可以通过多种语言上有效的、长度不同的释义来表达同一个源概念。如图1所示，基线系统翻译一个片段时简洁明了——导致输出如"The points and goals (pause) scored during the playoffs (pause) are totally retained"——其中需要频繁停顿以等待传入的源上下文。相比之下，通过生成一个词汇不同但语义等价的短语（如"awarded during the championship phase"），模型可以选择音节更多或发音时间更长的释义，从而延长语音输出的持续时间。这种延长的发音为系统提供了额外的时间，以持续吸收传入的源音频而无需暂停声学输出。因此，模型避免了破坏性停顿，促进了无缝、连续的流动。

然而，优化这种行为无法自然表述为标准监督学习问题。对于给定的源片段，通常不存在一个唯一的最佳翻译能同时代表语义保真度和声学流畅性的最优平衡。相反，几个候选翻译可能保留了预期含义，但在延长口语输出和避免插入停顿的能力上有所不同。因此，我们将问题表述为基于偏好的学习，其中候选输出之间的成对判断为翻译充分性与连续声学流之间的期望权衡提供了直接监督。

为此，我们引入了NaturalFlow，一种训练用于生成更连续、更自然声学输出的语音到语音翻译模型，同时保持翻译质量。NaturalFlow建立在Hibiki模型[hibiki_labiausse_2025]之上，通过直接偏好优化（DPO）进行训练，使用一种名为"银牌偏好"（Silver-Medal Preference）的新型偏好数据构建方法，该方法联合优化两个潜在冲突的目标：最小化静音比例和保持翻译保真度。

我们在四个基准测试上验证了我们的框架：CVSS-C[cvss_jia_2022]、VoxPopuli[voxpopuli_wang_2021]、mTEDx[mtedx_salesky_2021]和Audio-NTREX[hibiki_zero_labiausse_2026]，涵盖了不同领域和话语长度。实验表明，所提出的方法在保持翻译质量和其他延迟相关指标的同时，降低了静音比例。最终，人工评估证实，我们的S2ST模型生成的连续、自然的翻译比基线系统更受听众青睐。

参考图说明图1：CVSS-C测试集上真实例子的翻译输出比较。与基线相比，我们的模型以更少的停顿产生了自然的语音流。

## 2 相关工作

### 2.1 口译中的流畅性：停顿与感知质量

流畅性是口译质量评估的核心标准，但它是通过一组异质的时间和不流畅相关指标来操纵的，而非单一公认的构念[Mead2005]。这类文献的共同点是，流畅性与处理约束下的实时产出紧密相关：口译员必须同时听、记住信息和说话，因此崩溃现象——停顿、犹豫、修正和重复——成为负荷下表现的重要指标[Gile1999]。在这个意义上，流畅性通常被讨论为时间压力下的平滑连续产出，这与更广义的口语语言描述一致，即流畅性是快速高效的在线构思和发音[Lennon2000]。

因此，大量工作关注停顿如何出现在同声口译中，以及它们如何与感知流畅性相关联。方法上，停顿通常通过时长和频率度量（例如，沉默停顿次数、平均停顿时长）以及合成时间比率（如发音时间比PTR，表示说话时间占总时间的比例）来量化[Mead2005]。实证上，描述性分析表明，沉默停顿和其他不流畅在口译输出中普遍存在，反映了口译员协调并发需求的能力[Tissi2000]。除了描述性研究，感知层面的工作表明，流畅性相关线索可以显著影响主观质量判断。特别是，对照研究报告称，操纵流畅性（包括停顿模式）会改变听众对口译质量的评分，并且即使信息内容保持不变，也会对感知的准确性和可理解性产生负面影响[Rennert2010]。来自感知流畅性的（副）语言相关因素的补充证据进一步支持，停顿行为和时域产出特征是口译中流畅性印象的可靠预测因素[Han2015]。综合来看，口译研究强调了停顿在感知流畅性和用户体验中的重要因素——这表明，对于同声S2ST，最小化破坏性的块间静音是一个关键考虑因素，而非次要的美学问题。

### 2.2 语音到语音翻译

早期的语音翻译系统主要是级联系统，包括自动语音识别（ASR）、机器翻译（MT）和文本到语音（TTS）模块，这些模块可能由于中间解码和重新合成而导致错误传播和延迟。受这些局限性的推动，端到端语音到文本翻译（S2TT）作为从源语音直接映射到目标文本的方法出现[berard2016, weiss2017]。

语音到语音翻译（S2ST）在此基础上扩展，通过S2TT+TTS级联或直接S2ST模型生成目标语音。有代表性的方向包括端到端语音到语音建模[jia2019]、基于离散单元的S2ST（预测自监督单元并可选择同时输出文本和语音）[lee2022]，以及大规模覆盖ASR/S2TT/S2ST的统一基础模型[seamlessM4T2023]。对于同声S2ST，额外的关键挑战是在源音频展开的同时决定何时说话。最近的系统通过多语言流式模型系列[seamless_communication_2023]、联合学习翻译和同声策略的多任务框架[streamspeech_zhang_2024]，或者通过解码器仅多流形式（联合生成文本和音频令牌以实现高保真度同声语音翻译）来应对这一问题[hibiki_labiausse_2025, hibiki_zero_labiausse_2026]。

尽管进展迅速，但大量的同声S2ST文献仍然主要通过质量-延迟权衡（例如，翻译指标与起始延迟和滞后行为）来框定进展，并将由此产生的停顿模式视为分块和策略决策的次要副产品。然而，正如上文讨论的口译文献所强调的，即使语义内容相当，由停顿驱动的输出也能显著影响感知质量和可理解性。在这项工作中，我们将目标转向明确改善声学连续性，直接针对破坏性的块间静音，同时保持翻译质量和延迟。

### 2.3 利用翻译模型进行优化：实时行为的偏好学习

基于偏好的优化为通过成对偏好塑造生成行为提供了RL风格对齐的实用替代方案。直接偏好优化（DPO）将对齐转化为一个稳定的监督目标，作用于偏好和非偏好的输出，避免了显式奖励建模和在线RL[DPO2023]。这对于翻译任务很有吸引力，因为每个输入可以采样多个候选并通过相对偏好进行比较。

在机器翻译中，偏好优化已被用于通过精心构建的偏好对（例如，避免近误翻译的对比偏好）直接改进模型输出[xu_cpo_2024]。对于同声MT来说，偏好和策略优化尤为重要，因为期望行为是时间依赖的：系统必须在源语言展开时决定何时输出。SimulPL证明，可以引入人类偏好来改进延迟约束下的流式行为[SimulPL2025]，而SeqPO-SiMT则进一步优化了多步流式设置下的顺序策略，以获得更好的质量-延迟折中[seqpo_xu_2025]。然而，现有的偏好优化流式系统仍然主要针对质量-延迟权衡和策略效率。相比之下，我们在同声S2ST中对偏好进行编码，以直接惩罚破坏性的静音，同时约束翻译质量和延迟，使模型朝向更连续的声学输出方向对齐。

## 3 预备知识

### 3.1 同声S2ST模型

为了实现这种近乎即时的通信，端到端S2ST系统必须能够同步处理传入的音频流并生成翻译。在这项工作中，我们采用Hibiki[hibiki_labiausse_2025]作为基线架构，并将我们提出的优化框架应用于该模型。

Hibiki被设计为在处理源语音的同时同步生成目标语音和文本。原始音频首先使用Mimi[défossez2024moshispeechtextfoundationmodel]进行离散化，这是一种神经音频编解码器，工作帧率为fr=12.5Hz，具有Q=16个码本级别。这使得模型能够捕获粗略的语义含义以及精细的声学细节，如说话者音色。它以源音频流为输入，联合预测目标音频令牌和词级对齐的文本流，其中文本令牌被填充以匹配相应音频令牌的长度，从而使两个序列在同一分辨率上时间对齐。该模型不依赖外部控制策略，而是隐式学习积累多少额外源上下文以及何时发出翻译。这种行为是通过弱监督过程构建的时间对齐训练数据实现的：随着源上下文的逐步扩展，模型跟踪下一个目标令牌的对数似然，并识别对齐点，在此点上似然值的剧增表明已积累了足够的上下文信息用于可靠预测。

尽管这种对齐策略反映了同声口译的精神，但它也是生成语音输出中高静音比例的主要元凶。由于模型被训练为在翻译LLM出现这些上下文峰值后立即发出语音，这导致了碎片化的声学流，给听众带来了很高的认知负担。为了解决这一限制，我们引入了一个流畅性感知偏好优化框架，该框架利用AI驱动的偏好数据集，在保持翻译质量和延迟的同时，减少过多的块间静音。

### 3.2 直接偏好优化

传统上，将生成模型与期望行为对齐依赖于来自人类或AI反馈的强化学习。

NaturalFlow：减少同时语音翻译中干扰性停顿以促进自然语音流畅

相似文章

STARFlow2：连接语言模型与归一化流以实现统一的多模态生成

RhymeFlow: 基于异步去噪流调度的视频生成无训练加速方法

FlowLM: 基于扩散-流适配的少步语言建模

LangFlow：连续扩散在语言建模中可与离散扩散相媲美

NeuroSonic：基于条件流匹配的脑电图到语音重建

提交意见反馈