一种针对长语音同声传译的实用评估方法
摘要
本文提出了一种针对长语音同声传译的实用评估方法,该方法利用自动语音识别(ASR)、强制对齐和句子嵌入对齐来计算连续语音的延迟和质量指标,克服了先前方法的局限性。
arXiv:2606.15059v1 Announce Type: new
摘要:同声传译(SimulS2ST)能够实现实时跨语言通信,但现有评估主要集中于短语音或预先切分的语音,而非长语音连续输入。先前的方法难以复现,且做出的假设不适用于端到端系统。我们提出了一种针对长语音SimulS2ST的实用评估方法。给定源语音、预先切分的源文本转录和参考翻译,我们对生成的目标语音运行自动语音识别(ASR)和强制对齐,以恢复token级时间戳,然后应用基于句子嵌入的对齐器将目标文本与其对应的源句子匹配。这实现了句子级别的延迟和质量指标计算,包括YAAL和xCOMET,这些指标随后被聚合为最终的系统级分数。在代表性SimulS2ST系统上的实验表明,该方法在实践中是有效的,并揭示当前系统在长语音上存在显著的延迟积累。
查看缓存全文
缓存时间: 2026/06/16 11:44
# 长篇幅同声语音到语音翻译的实用评估方法
来源:https://arxiv.org/html/2606.15059
Yulin Xue, Siqi Ouyang, Lei Li 卡内基梅隆大学 \{yulinx,siqiouya\}@andrew\.cmu\.edu, leili@cs\.cmu\.edu
###### 摘要
同声语音到语音翻译(SimulS2ST)实现了实时跨语言通信,但现有评估主要集中于短时或预分段的语音,而非长篇幅、连续输入的语音。先前的方法难以复现,且其假设对端到端系统不成立。我们提出了一种针对长篇幅 SimulS2ST 的实用评估方法。给定源语音、预分段的源转录文本和参考译文,我们对生成的目语音语运行自动语音识别(ASR)和强制对齐,以恢复词级时间戳,然后采用基于句子嵌入的对齐器将目标文本与对应的源句子匹配。这使得能够在句子级别计算延迟和质量指标,包括 YAAL 和 xCOMET,然后汇总为最终的系统级分数。在代表性 SimulS2ST 系统上的实验表明,该方法在实践中有效,并揭示了当前系统在长语音上存在显著的延迟累积。
- 长篇幅同声语音到语音翻译的实用评估方法
- Yulin Xue, Siqi Ouyang, Lei Li
- 卡内基梅隆大学
- \{yulinx,siqiouya\}@andrew\.cmu\.edu, leili@cs\.cmu\.edu
## 1 引言
同声语音到语音翻译(SimulS2ST)将流式源语音实时翻译为目标语言语音(Zheng 等人,2020 (https://arxiv.org/html/2606.15059#bib.bib1)),可在多语言对话和国际会议等场景中实现低延迟的跨语言通信。然而,大多数先前的工作在预分段或短时语音上评估 SimulS2ST,而现实中的输入,如会议语音,往往是连续的且可能持续数小时(Sudoh 等人,2020 (https://arxiv.org/html/2606.15059#bib.bib2);Ma 等人,2022 (https://arxiv.org/html/2606.15059#bib.bib3);Liu 等人,2022 (https://arxiv.org/html/2606.15059#bib.bib4);Communication 等人,2023 (https://arxiv.org/html/2606.15059#bib.bib5);Zhang 等人,2024 (https://arxiv.org/html/2606.15059#bib.bib6))。
早期针对长篇幅 SimulS2ST 评估的工作之一是边界感知延迟(pBAL),它将目标语音分段为句子,应用强制对齐恢复目标词时间戳,并基于这些时间戳计算延迟(Zheng 等人,2020 (https://arxiv.org/html/2606.15059#bib.bib1))。这一通用范式与近期长篇幅同声语音到文本翻译(SimulS2TT)评估的努力密切相关(Papi 等人,2024 (https://arxiv.org/html/2606.15059#bib.bib7);Polák 等人,2026 (https://arxiv.org/html/2606.15059#bib.bib8))。然而,pBAL 存在重要的实际局限性。首先,它未开源,使得后续研究难以复现和采用。其次,pBAL 是为包含 ASR、机器翻译(MT)和文本到语音(TTS)的级联系统设计的,这引入了一些局限性。特别是,它将目标语音分段以与源语音的流式 ASR 输出对齐,而非与真实的源句子对齐,这使得评估对源端 ASR 错误敏感。它还假设可以访问目标文本以进行强制对齐,这对于某些端到端(E2E)SimulS2ST 系统并不可用(Labiausse 等人,2025 (https://arxiv.org/html/2606.15059#bib.bib9))。
在本文中,我们提出了一种用于长篇幅 SimulS2ST 的实用评估方法。我们假设可以访问源语音、预分段为句子的源转录文本及其对应的翻译句子。给定 SimulS2ST 系统生成的目标语音,我们首先使用最先进的模型运行 ASR 和强制对齐,以获得带有词级时间戳的目标文本。然后,我们使用基于句子嵌入的方法 SEGALE(Wang 等人,2025 (https://arxiv.org/html/2606.15059#bib.bib10))将目标文本分段为与源句子对齐的句子。最后,对于每个对齐的句子,我们计算标准的延迟指标(如 YAAL(Polák 等人,2026 (https://arxiv.org/html/2606.15059#bib.bib8)))和质量指标(如 xCOMET(Guerreiro 等人,2024 (https://arxiv.org/html/2606.15059#bib.bib11))),并平均句子级分数以获得最终的延迟和质量分数。在我们的实验中,我们使用该方法评估了几个代表性的 SimulS2ST 系统,并分析了 ASR 和句子分段的质量。我们观察到,即使是最先进的系统在长语音上也会出现延迟累积。我们将在最终版本中发布 GitHub 仓库。
## 2 相关工作
#### 长篇幅同声翻译评估
同声翻译的延迟评估传统上是在预分段设置中研究的,其中输入语音在评估前被分割为话语。StreamLAAL(Papi 等人,2024 (https://arxiv.org/html/2606.15059#bib.bib7))通过首先使用 mwerSegmenter(Matusov 等人,2005 (https://arxiv.org/html/2606.15059#bib.bib12))将假设分段为与参考翻译句子对齐的话语,然后为每个对齐的假设话语及其对应的参考句子计算延迟,将话语级评估扩展到长篇幅设置。LongYAAL(Polák 等人,2026 (https://arxiv.org/html/2606.15059#bib.bib8))通过缓解延迟评估中的结构偏差并引入 SoftSegmenter(其分段和对齐效果优于 mwerSegmenter)改进了 StreamLAAL。这些方法专为同声语音到文本翻译设计,而我们的工作将其扩展到同声语音到语音翻译的评估。
#### 长篇幅机器翻译评估
另一条相关的工作线研究长篇幅机器翻译的自动评估。mwerSegmenter(Matusov 等人,2005 (https://arxiv.org/html/2606.15059#bib.bib12))通过最小化词错误率来对齐假设和参考翻译句子;然而,它处理句子边界时表现不佳,并且在过度翻译或欠翻译的情况下常常失败。SEGALE(Wang 等人,2025 (https://arxiv.org/html/2606.15059#bib.bib10))通过使用句子边界检测器(如 spaCy111https://spacy.io/)恢复句子边界,并正确惩罚过度翻译和欠翻译,改进了 mwerSegmenter。我们的工作利用 SEGALE 作为长篇幅假设更鲁棒的分段器。
## 3 方法
在本节中,我们首先介绍公式化表述(第 3.1 节 (https://arxiv.org/html/2606.15059#S3.SS1))。然后,我们描述 ASR 和强制对齐过程(第 3.3 节 (https://arxiv.org/html/2606.15059#S3.SS3))、目标语音分段方法(第 3.4 节 (https://arxiv.org/html/2606.15059#S3.SS4))以及最终延迟和质量分数的计算(第 3.5 节 (https://arxiv.org/html/2606.15059#S3.SS5))。
### 3.1 公式化表述
我们定义长篇幅输入语音流为 s = (x₁, x₂, ⋯, xₙ),其中每个 x_i ∈ ℝ^|x_i| 表示第 i 个句子的语音波形。设 y_i 为句子 i 的参考文本翻译。给定输入语音流 s,SimulS2ST 系统逐步生成目标语音 t̂。我们假设输入和目标语音流在起始时间上对齐,即它们共享相同的初始时间戳。评估方法的目标是在给定 s、x₁:ₙ 和 y₁:ₙ 的情况下,为生成的目标语音 t̂ 计算延迟和质量分数。
### 3.2 概述
在高层面上,我们的评估流水线包括三个阶段。首先,给定 SimulS2ST 系统生成的目标语音,我们运行 ASR 以获得目标端文本,并应用强制对齐以恢复目标语音上的词级时间戳。其次,遵循 SEGALE,我们将目标文本分段为句子并与源转录文本句子及其参考译文对齐,生成可能反映一对一、一对多、多对一、多对多或空对齐的句子组。最后,对于每个对齐的组,我们使用现有指标(如 YAAL)计算延迟,并使用句子级指标(如 xCOMET 计算翻译质量。然后将组级分数平均为最终的系统级延迟和质量分数。
### 3.3 带时间戳的转录
给定目标语音 t̂,我们使用最先进的 ASR 和强制对齐模型:Qwen3-ASR-1.7B 和 Qwen3-ForcedAligner-0.6B(Shi 等人,2026 (https://arxiv.org/html/2606.15059#bib.bib13)),将目标语音 t̂ 转录为文本 ŷ = (ŷ₁, ..., ŷ_|ŷ|),并获得词级时间戳 d = (d₁, ..., d_|ŷ|),其中 d_i 表示词 ŷ_i 的结束时间。
对于长篇幅语音,我们以分块方式处理输入。我们将目标语音 t̂ 分成 C 个连续块,每个块持续时间为 180 秒:
t̂ = (t̂^(1), t̂^(2), ..., t̂^(C)). (1)
对于每个块 t̂^(c),ASR 模型生成部分转录:
ŷ^(c) = (ŷ₁^(c), ..., ŷ_|ŷ^(c)|^(c)). (2)
然后对每个块应用强制对齐,使用相应的音频和识别文本,产生块级时间戳序列:
d^(c) = (d₁^(c), ..., d_|ŷ^(c)|^(c)), (3)
其中 d_i^(c) 表示第 c 个块中词 ŷ_i^(c) 的结束时间。设 o_c 为块 t^(c) 在原始语音流中的起始时间偏移。我们通过以下方式将块级时间戳映射回全局时间线:
d̃_i^(c) = d_i^(c) + o_c. (4)
最后,通过连接所有块级结果得到完整的转录和时间戳序列:
ŷ = ŷ^(1) ⊕ ⋯ ⊕ ŷ^(C) (5)
d = d̃^(1) ⊕ ⋯ ⊕ d̃^(C). (6)
### 3.4 使用 SEGALE 的鲁棒分段
我们使用 SEGALE 将目标文本 ŷ 分段为句子级单元,并与源语音句子 x₁:ₙ 对齐。我们首先使用 spaCy222https://spacy.io/ 将 ŷ 分割为句子 ŷ₁:ₘ。给定源语音句子 x₁:ₙ、它们的参考译文 y₁:ₙ 以及分段后的目标句子 ŷ₁:ₘ,SEGALE 使用带自适应跳过惩罚搜索策略的 Vecalign(Thompson 和 Koehn,2020 (https://arxiv.org/html/2606.15059#bib.bib14))执行句子对齐。
为了支持多对多对齐,SEGALE 在源端和目标端都构建候选连续跨度,而不是将对齐限制在单个句子上。设 x_{i:j} = x_i ⊕ ⋯ ⊕ x_j 表示源跨度,ŷ_{p:q} = ŷ_p ⊕ ⋯ ⊕ ŷ_q 表示目标跨度,其中 ⊕ 表示连接。对于每个源跨度 x_{i:j} 和目标跨度 ŷ_{p:q},SEGALE 计算基于嵌入的匹配成本,语义更相似的跨度成本更低。Vecalign 然后在源和目标句子序列之间寻找单调对齐,同时允许任一侧有空对齐,这由跳过惩罚 β_skip 控制。
跳过惩罚决定了强制匹配和允许删除之间的权衡。大的 β_skip 使得跳过成本高,因此对齐器偏好更少的空对齐和更多的强制匹配;这通常使空对齐比率(NA ratio)保持较低,但增加了平均对齐成本,因为语义弱的对更可能被匹配。相反,小的 β_skip 使得跳过便宜,因此对齐器更容易让片段不匹配;这通常增加 NA 比率并降低平均对齐成本,因为高成本对被跳过,只留下较容易的匹配。因此,SEGALE 自适应地搜索 β_skip:它从一个相对较大的值开始,然后逐步减小。一旦平均对齐成本低于阈值或 NA 比率超过阈值,SEGALE 将其视为过度删除的开始,并返回上一步的对齐。
我们将对齐输出表示为:
A = (A₁, ..., A_r), (7)
其中每个对齐组定义为:
A_k = (X_k, Y_k, Ŷ_k). (8)
这里,X_k 是来自 x₁:ₙ 的连续源句子子集,Y_k 是来自 y₁:ₙ 的连续参考翻译句子子集,Ŷ_k 是来自 ŷ₁:ₘ 的连续目标句子子集。SEGALE 自然处理了过度翻译和欠翻译。在过度翻译的情况下,一些目标句子不对应任何源句子,导致 X_k 和 Y_k 为空。在欠翻译的情况下,一些源句子不对应任何目标句子,导致 Ŷ_k 为空。这种现象在同声翻译中经常发生,使得这种鲁棒性对于长篇幅 SimulS2ST 评估很重要。
### 3.5 延迟计算
给定 SEGALE 产生的对齐,我们在对齐组级别计算延迟。对于每个组 A_k = (X_k, Y_k, Ŷ_k),令 T_k^s 和 T_k^e 分别表示源跨度 X_k 的起始和结束时间。令 d_k = (d₁, ..., d_|Ŷ_k|) 表示通过强制对齐获得的目标句子组 Ŷ_k 的词级时间戳。
我们将第 i 个目标词的理论延迟定义为:
d_i^* = T_k^s + (i - 1) * (T_k^e - T_k^s) / max( |Y_k|, |Ŷ_k| ), (9)
其中 |Y_k| 和 |Ŷ_k| 分别是参考和目标句子组中的词数。相似文章
基于SpeechLLM的流式语音转文本翻译
提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。
OpenSTBench:超越语义评估的语音翻译
OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。
在英中语音到语音翻译中评估和保留词汇重音
一篇研究论文,提出了一种新的评估指标和重音感知系统,用于在英中语音到语音翻译中评估和保留词汇重音,实验表明在保持翻译质量的同时,其重音翻译能力显著优于现有方法。
语音到语音翻译模型基准测试
COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架,它整合了八个维度的46个指标,并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势,并提出了精简的指标子集,在保持排名的同时减少了评估时间。
基于LLM并行文本生成的低延迟实时音频游戏解说系统
本文介绍了一种低延迟实时音频游戏解说系统,该系统利用基于LLM的并行文本生成技术,将语句间的静默时间从9.6秒减少到0.3秒,与顺序基线相比显著改善了感知到的说话节奏。