OpenSTBench:超越语义评估的语音翻译

Hugging Face Daily Papers 论文

摘要

OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。

语音翻译系统日益涵盖语音到文本翻译(S2TT)、语音到语音翻译(S2ST)、离线翻译和流式生成,其输出在模态、语音实现和时序行为上各不相同。现有的评估实践会评估翻译质量、语音质量、时序质量等重要方面,但这些方面往往按照独立的协议进行评估,导致难以全面比较异构系统。为解决这一问题,我们提出了 OpenSTBench,这是一个统一的多维度评估框架,将异构语音翻译输出组织为共享评估格式。OpenSTBench 支持离线与流式场景下的 S2TT 和 S2ST 系统,并联合评估翻译质量、语音质量、说话人保持、情感与副语言保真度、时序一致性和延迟。通过在代表性语音翻译系统上的实验,我们发现翻译质量强的系统在语音质量和时序质量上仍可能存在显著差异。OpenSTBench 提供了一个可复现的协议,用于分析这些跨维度差异,并支持面向应用的语音翻译系统比较。代码和数据集可在 https://github.com/sjtuayj/OpenSTBench 获取。
查看原文

相似文章

语音到语音翻译模型基准测试

arXiv cs.CL

COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架,它整合了八个维度的46个指标,并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势,并提出了精简的指标子集,在保持排名的同时减少了评估时间。

SpeechEditBench:面向指令引导语音编辑的双语多属性基准

Hugging Face Daily Papers

SpeechEditBench是一个双语多属性基准,用于评估指令引导的语音编辑,涵盖七项原子任务和组合任务,并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明,没有单一模型能在所有维度上表现出色,而组合编辑仍然极具挑战性。

多场景长篇语音生成的综合基准评测

Hugging Face Daily Papers

Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。

BlasBench:爱尔兰语语音识别开放基准

arXiv cs.CL

BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。