OpenSTBench：超越语义评估的语音翻译

Hugging Face Daily Papers 2026/05/29 00:00 论文

speech-translation evaluation-framework speech-to-speech benchmark multilingual streaming audio-ai

摘要

OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架，能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟，涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白，并为比较异构语音翻译系统提供了一个可复现的基准。

语音翻译系统日益涵盖语音到文本翻译（S2TT）、语音到语音翻译（S2ST）、离线翻译和流式生成，其输出在模态、语音实现和时序行为上各不相同。现有的评估实践会评估翻译质量、语音质量、时序质量等重要方面，但这些方面往往按照独立的协议进行评估，导致难以全面比较异构系统。为解决这一问题，我们提出了 OpenSTBench，这是一个统一的多维度评估框架，将异构语音翻译输出组织为共享评估格式。OpenSTBench 支持离线与流式场景下的 S2TT 和 S2ST 系统，并联合评估翻译质量、语音质量、说话人保持、情感与副语言保真度、时序一致性和延迟。通过在代表性语音翻译系统上的实验，我们发现翻译质量强的系统在语音质量和时序质量上仍可能存在显著差异。OpenSTBench 提供了一个可复现的协议，用于分析这些跨维度差异，并支持面向应用的语音翻译系统比较。代码和数据集可在 https://github.com/sjtuayj/OpenSTBench 获取。

查看原文

OpenSTBench：超越语义评估的语音翻译

相似文章

语音到语音翻译模型基准测试

SpeechEditBench：面向指令引导语音编辑的双语多属性基准

多场景长篇语音生成的综合基准评测

Simulstream：用于评估和演示流式语音到文本翻译系统的开源工具包

一种针对长语音同声传译的实用评估方法

提交意见反馈