一种针对长语音同声传译的实用评估方法

arXiv cs.CL 2026/06/16 04:00 论文

摘要

本文提出了一种针对长语音同声传译的实用评估方法，该方法利用自动语音识别（ASR）、强制对齐和句子嵌入对齐来计算连续语音的延迟和质量指标，克服了先前方法的局限性。

arXiv:2606.15059v1 Announce Type: new 摘要：同声传译（SimulS2ST）能够实现实时跨语言通信，但现有评估主要集中于短语音或预先切分的语音，而非长语音连续输入。先前的方法难以复现，且做出的假设不适用于端到端系统。我们提出了一种针对长语音SimulS2ST的实用评估方法。给定源语音、预先切分的源文本转录和参考翻译，我们对生成的目标语音运行自动语音识别（ASR）和强制对齐，以恢复token级时间戳，然后应用基于句子嵌入的对齐器将目标文本与其对应的源句子匹配。这实现了句子级别的延迟和质量指标计算，包括YAAL和xCOMET，这些指标随后被聚合为最终的系统级分数。在代表性SimulS2ST系统上的实验表明，该方法在实践中是有效的，并揭示当前系统在长语音上存在显著的延迟积累。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:44

# 长篇幅同声语音到语音翻译的实用评估方法
来源：https://arxiv.org/html/2606.15059
Yulin Xue, Siqi Ouyang, Lei Li 卡内基梅隆大学 \{yulinx,siqiouya\}@andrew\.cmu\.edu, leili@cs\.cmu\.edu

###### 摘要

同声语音到语音翻译（SimulS2ST）实现了实时跨语言通信，但现有评估主要集中于短时或预分段的语音，而非长篇幅、连续输入的语音。先前的方法难以复现，且其假设对端到端系统不成立。我们提出了一种针对长篇幅 SimulS2ST 的实用评估方法。给定源语音、预分段的源转录文本和参考译文，我们对生成的目语音语运行自动语音识别（ASR）和强制对齐，以恢复词级时间戳，然后采用基于句子嵌入的对齐器将目标文本与对应的源句子匹配。这使得能够在句子级别计算延迟和质量指标，包括 YAAL 和 xCOMET，然后汇总为最终的系统级分数。在代表性 SimulS2ST 系统上的实验表明，该方法在实践中有效，并揭示了当前系统在长语音上存在显著的延迟累积。

- 长篇幅同声语音到语音翻译的实用评估方法
- Yulin Xue, Siqi Ouyang, Lei Li
- 卡内基梅隆大学
- \{yulinx,siqiouya\}@andrew\.cmu\.edu, leili@cs\.cmu\.edu

## 1 引言

同声语音到语音翻译（SimulS2ST）将流式源语音实时翻译为目标语言语音（Zheng 等人，2020 (https://arxiv.org/html/2606.15059#bib.bib1)），可在多语言对话和国际会议等场景中实现低延迟的跨语言通信。然而，大多数先前的工作在预分段或短时语音上评估 SimulS2ST，而现实中的输入，如会议语音，往往是连续的且可能持续数小时（Sudoh 等人，2020 (https://arxiv.org/html/2606.15059#bib.bib2)；Ma 等人，2022 (https://arxiv.org/html/2606.15059#bib.bib3)；Liu 等人，2022 (https://arxiv.org/html/2606.15059#bib.bib4)；Communication 等人，2023 (https://arxiv.org/html/2606.15059#bib.bib5)；Zhang 等人，2024 (https://arxiv.org/html/2606.15059#bib.bib6)）。

早期针对长篇幅 SimulS2ST 评估的工作之一是边界感知延迟（pBAL），它将目标语音分段为句子，应用强制对齐恢复目标词时间戳，并基于这些时间戳计算延迟（Zheng 等人，2020 (https://arxiv.org/html/2606.15059#bib.bib1)）。这一通用范式与近期长篇幅同声语音到文本翻译（SimulS2TT）评估的努力密切相关（Papi 等人，2024 (https://arxiv.org/html/2606.15059#bib.bib7)；Polák 等人，2026 (https://arxiv.org/html/2606.15059#bib.bib8)）。然而，pBAL 存在重要的实际局限性。首先，它未开源，使得后续研究难以复现和采用。其次，pBAL 是为包含 ASR、机器翻译（MT）和文本到语音（TTS）的级联系统设计的，这引入了一些局限性。特别是，它将目标语音分段以与源语音的流式 ASR 输出对齐，而非与真实的源句子对齐，这使得评估对源端 ASR 错误敏感。它还假设可以访问目标文本以进行强制对齐，这对于某些端到端（E2E）SimulS2ST 系统并不可用（Labiausse 等人，2025 (https://arxiv.org/html/2606.15059#bib.bib9)）。

在本文中，我们提出了一种用于长篇幅 SimulS2ST 的实用评估方法。我们假设可以访问源语音、预分段为句子的源转录文本及其对应的翻译句子。给定 SimulS2ST 系统生成的目标语音，我们首先使用最先进的模型运行 ASR 和强制对齐，以获得带有词级时间戳的目标文本。然后，我们使用基于句子嵌入的方法 SEGALE（Wang 等人，2025 (https://arxiv.org/html/2606.15059#bib.bib10)）将目标文本分段为与源句子对齐的句子。最后，对于每个对齐的句子，我们计算标准的延迟指标（如 YAAL（Polák 等人，2026 (https://arxiv.org/html/2606.15059#bib.bib8)））和质量指标（如 xCOMET（Guerreiro 等人，2024 (https://arxiv.org/html/2606.15059#bib.bib11)）），并平均句子级分数以获得最终的延迟和质量分数。在我们的实验中，我们使用该方法评估了几个代表性的 SimulS2ST 系统，并分析了 ASR 和句子分段的质量。我们观察到，即使是最先进的系统在长语音上也会出现延迟累积。我们将在最终版本中发布 GitHub 仓库。

## 2 相关工作

#### 长篇幅同声翻译评估

同声翻译的延迟评估传统上是在预分段设置中研究的，其中输入语音在评估前被分割为话语。StreamLAAL（Papi 等人，2024 (https://arxiv.org/html/2606.15059#bib.bib7)）通过首先使用 mwerSegmenter（Matusov 等人，2005 (https://arxiv.org/html/2606.15059#bib.bib12)）将假设分段为与参考翻译句子对齐的话语，然后为每个对齐的假设话语及其对应的参考句子计算延迟，将话语级评估扩展到长篇幅设置。LongYAAL（Polák 等人，2026 (https://arxiv.org/html/2606.15059#bib.bib8)）通过缓解延迟评估中的结构偏差并引入 SoftSegmenter（其分段和对齐效果优于 mwerSegmenter）改进了 StreamLAAL。这些方法专为同声语音到文本翻译设计，而我们的工作将其扩展到同声语音到语音翻译的评估。

#### 长篇幅机器翻译评估

另一条相关的工作线研究长篇幅机器翻译的自动评估。mwerSegmenter（Matusov 等人，2005 (https://arxiv.org/html/2606.15059#bib.bib12)）通过最小化词错误率来对齐假设和参考翻译句子；然而，它处理句子边界时表现不佳，并且在过度翻译或欠翻译的情况下常常失败。SEGALE（Wang 等人，2025 (https://arxiv.org/html/2606.15059#bib.bib10)）通过使用句子边界检测器（如 spaCy111https://spacy.io/）恢复句子边界，并正确惩罚过度翻译和欠翻译，改进了 mwerSegmenter。我们的工作利用 SEGALE 作为长篇幅假设更鲁棒的分段器。

## 3 方法

在本节中，我们首先介绍公式化表述（第 3.1 节 (https://arxiv.org/html/2606.15059#S3.SS1)）。然后，我们描述 ASR 和强制对齐过程（第 3.3 节 (https://arxiv.org/html/2606.15059#S3.SS3)）、目标语音分段方法（第 3.4 节 (https://arxiv.org/html/2606.15059#S3.SS4)）以及最终延迟和质量分数的计算（第 3.5 节 (https://arxiv.org/html/2606.15059#S3.SS5)）。

### 3.1 公式化表述

我们定义长篇幅输入语音流为 s = (x₁, x₂, ⋯, xₙ)，其中每个 x_i ∈ ℝ^|x_i| 表示第 i 个句子的语音波形。设 y_i 为句子 i 的参考文本翻译。给定输入语音流 s，SimulS2ST 系统逐步生成目标语音 t̂。我们假设输入和目标语音流在起始时间上对齐，即它们共享相同的初始时间戳。评估方法的目标是在给定 s、x₁:ₙ 和 y₁:ₙ 的情况下，为生成的目标语音 t̂ 计算延迟和质量分数。

### 3.2 概述

在高层面上，我们的评估流水线包括三个阶段。首先，给定 SimulS2ST 系统生成的目标语音，我们运行 ASR 以获得目标端文本，并应用强制对齐以恢复目标语音上的词级时间戳。其次，遵循 SEGALE，我们将目标文本分段为句子并与源转录文本句子及其参考译文对齐，生成可能反映一对一、一对多、多对一、多对多或空对齐的句子组。最后，对于每个对齐的组，我们使用现有指标（如 YAAL）计算延迟，并使用句子级指标（如 xCOMET 计算翻译质量。然后将组级分数平均为最终的系统级延迟和质量分数。

### 3.3 带时间戳的转录

给定目标语音 t̂，我们使用最先进的 ASR 和强制对齐模型：Qwen3-ASR-1.7B 和 Qwen3-ForcedAligner-0.6B（Shi 等人，2026 (https://arxiv.org/html/2606.15059#bib.bib13)），将目标语音 t̂ 转录为文本 ŷ = (ŷ₁, ..., ŷ_|ŷ|)，并获得词级时间戳 d = (d₁, ..., d_|ŷ|)，其中 d_i 表示词 ŷ_i 的结束时间。

对于长篇幅语音，我们以分块方式处理输入。我们将目标语音 t̂ 分成 C 个连续块，每个块持续时间为 180 秒：

t̂ = (t̂^(1), t̂^(2), ..., t̂^(C)).  (1)

对于每个块 t̂^(c)，ASR 模型生成部分转录：

ŷ^(c) = (ŷ₁^(c), ..., ŷ_|ŷ^(c)|^(c)).  (2)

然后对每个块应用强制对齐，使用相应的音频和识别文本，产生块级时间戳序列：

d^(c) = (d₁^(c), ..., d_|ŷ^(c)|^(c)),  (3)

其中 d_i^(c) 表示第 c 个块中词 ŷ_i^(c) 的结束时间。设 o_c 为块 t^(c) 在原始语音流中的起始时间偏移。我们通过以下方式将块级时间戳映射回全局时间线：

d̃_i^(c) = d_i^(c) + o_c.  (4)

最后，通过连接所有块级结果得到完整的转录和时间戳序列：

ŷ = ŷ^(1) ⊕ ⋯ ⊕ ŷ^(C)  (5)
d = d̃^(1) ⊕ ⋯ ⊕ d̃^(C).  (6)

### 3.4 使用 SEGALE 的鲁棒分段

我们使用 SEGALE 将目标文本 ŷ 分段为句子级单元，并与源语音句子 x₁:ₙ 对齐。我们首先使用 spaCy222https://spacy.io/ 将 ŷ 分割为句子 ŷ₁:ₘ。给定源语音句子 x₁:ₙ、它们的参考译文 y₁:ₙ 以及分段后的目标句子 ŷ₁:ₘ，SEGALE 使用带自适应跳过惩罚搜索策略的 Vecalign（Thompson 和 Koehn，2020 (https://arxiv.org/html/2606.15059#bib.bib14)）执行句子对齐。

为了支持多对多对齐，SEGALE 在源端和目标端都构建候选连续跨度，而不是将对齐限制在单个句子上。设 x_{i:j} = x_i ⊕ ⋯ ⊕ x_j 表示源跨度，ŷ_{p:q} = ŷ_p ⊕ ⋯ ⊕ ŷ_q 表示目标跨度，其中 ⊕ 表示连接。对于每个源跨度 x_{i:j} 和目标跨度 ŷ_{p:q}，SEGALE 计算基于嵌入的匹配成本，语义更相似的跨度成本更低。Vecalign 然后在源和目标句子序列之间寻找单调对齐，同时允许任一侧有空对齐，这由跳过惩罚 β_skip 控制。

跳过惩罚决定了强制匹配和允许删除之间的权衡。大的 β_skip 使得跳过成本高，因此对齐器偏好更少的空对齐和更多的强制匹配；这通常使空对齐比率（NA ratio）保持较低，但增加了平均对齐成本，因为语义弱的对更可能被匹配。相反，小的 β_skip 使得跳过便宜，因此对齐器更容易让片段不匹配；这通常增加 NA 比率并降低平均对齐成本，因为高成本对被跳过，只留下较容易的匹配。因此，SEGALE 自适应地搜索 β_skip：它从一个相对较大的值开始，然后逐步减小。一旦平均对齐成本低于阈值或 NA 比率超过阈值，SEGALE 将其视为过度删除的开始，并返回上一步的对齐。

我们将对齐输出表示为：

A = (A₁, ..., A_r),  (7)

其中每个对齐组定义为：

A_k = (X_k, Y_k, Ŷ_k).  (8)

这里，X_k 是来自 x₁:ₙ 的连续源句子子集，Y_k 是来自 y₁:ₙ 的连续参考翻译句子子集，Ŷ_k 是来自 ŷ₁:ₘ 的连续目标句子子集。SEGALE 自然处理了过度翻译和欠翻译。在过度翻译的情况下，一些目标句子不对应任何源句子，导致 X_k 和 Y_k 为空。在欠翻译的情况下，一些源句子不对应任何目标句子，导致 Ŷ_k 为空。这种现象在同声翻译中经常发生，使得这种鲁棒性对于长篇幅 SimulS2ST 评估很重要。

### 3.5 延迟计算

给定 SEGALE 产生的对齐，我们在对齐组级别计算延迟。对于每个组 A_k = (X_k, Y_k, Ŷ_k)，令 T_k^s 和 T_k^e 分别表示源跨度 X_k 的起始和结束时间。令 d_k = (d₁, ..., d_|Ŷ_k|) 表示通过强制对齐获得的目标句子组 Ŷ_k 的词级时间戳。

我们将第 i 个目标词的理论延迟定义为：

d_i^* = T_k^s + (i - 1) * (T_k^e - T_k^s) / max( |Y_k|, |Ŷ_k| ),  (9)

其中 |Y_k| 和 |Ŷ_k| 分别是参考和目标句子组中的词数。

一种针对长语音同声传译的实用评估方法

相似文章

基于SpeechLLM的流式语音转文本翻译

OpenSTBench：超越语义评估的语音翻译

在英中语音到语音翻译中评估和保留词汇重音

语音到语音翻译模型基准测试

基于LLM并行文本生成的低延迟实时音频游戏解说系统

提交意见反馈