SpeechEditBench:面向指令引导语音编辑的双语多属性基准

Hugging Face Daily Papers 论文

摘要

SpeechEditBench是一个双语多属性基准,用于评估指令引导的语音编辑,涵盖七项原子任务和组合任务,并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明,没有单一模型能在所有维度上表现出色,而组合编辑仍然极具挑战性。

指令引导的语音编辑要求模型在修改指定语音属性的同时,保留不相关特征。尽管语音大模型(Speech LLMs)取得了快速进展,但对这一能力的系统性评估仍然面临挑战,现有基准分散于孤立的编辑任务中。为弥补这一空白,我们提出了SpeechEditBench——一个面向指令引导语音编辑的双语多属性基准。SpeechEditBench包含七项原子编辑任务,以及在同一指令中集成多项操作的组合编辑任务。我们提出了一种基于锚点的评估方案,分别评估目标属性的编辑成功率和非目标属性的保持成功率,衍生出三个指标:目标成功率、保持成功率和联合成功率。利用该基准,我们评估了主流语音大模型和专用语音编辑系统。结果揭示了三个关键发现:(1)没有单一模型在所有编辑维度上表现良好;(2)闭源语音大模型通常优于开源模型;(3)组合编辑仍然极具挑战性,即使是最先进的模型也难以达到高联合成功率。SpeechEditBench提供了一个严格的诊断框架,用于识别语音大模型的瓶颈,从而促进开发具有更强健、更精确指令引导编辑能力的下一代语音大模型。数据和代码可在 https://github.com/daxintan-cuhk/SpeechEditBench 获取。
查看原文

相似文章

OpenSTBench:超越语义评估的语音翻译

Hugging Face Daily Papers

OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。

多场景长篇语音生成的综合基准评测

Hugging Face Daily Papers

Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。

语音到语音翻译模型基准测试

arXiv cs.CL

COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架,它整合了八个维度的46个指标,并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势,并提出了精简的指标子集,在保持排名的同时减少了评估时间。

BlasBench:爱尔兰语语音识别开放基准

arXiv cs.CL

BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。