SpeechEditBench：面向指令引导语音编辑的双语多属性基准

Hugging Face Daily Papers 2026/06/03 00:00 论文

speech-editing benchmark speech-llm multilingual evaluation instruction-following audio-ai

摘要

SpeechEditBench是一个双语多属性基准，用于评估指令引导的语音编辑，涵盖七项原子任务和组合任务，并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明，没有单一模型能在所有维度上表现出色，而组合编辑仍然极具挑战性。

指令引导的语音编辑要求模型在修改指定语音属性的同时，保留不相关特征。尽管语音大模型（Speech LLMs）取得了快速进展，但对这一能力的系统性评估仍然面临挑战，现有基准分散于孤立的编辑任务中。为弥补这一空白，我们提出了SpeechEditBench——一个面向指令引导语音编辑的双语多属性基准。SpeechEditBench包含七项原子编辑任务，以及在同一指令中集成多项操作的组合编辑任务。我们提出了一种基于锚点的评估方案，分别评估目标属性的编辑成功率和非目标属性的保持成功率，衍生出三个指标：目标成功率、保持成功率和联合成功率。利用该基准，我们评估了主流语音大模型和专用语音编辑系统。结果揭示了三个关键发现：（1）没有单一模型在所有编辑维度上表现良好；（2）闭源语音大模型通常优于开源模型；（3）组合编辑仍然极具挑战性，即使是最先进的模型也难以达到高联合成功率。SpeechEditBench提供了一个严格的诊断框架，用于识别语音大模型的瓶颈，从而促进开发具有更强健、更精确指令引导编辑能力的下一代语音大模型。数据和代码可在 https://github.com/daxintan-cuhk/SpeechEditBench 获取。

查看原文

SpeechEditBench：面向指令引导语音编辑的双语多属性基准

相似文章

OpenSTBench：超越语义评估的语音翻译

Almieyar-Oryx-BloomBench：一种用于认知驱动评估视觉语言模型的双语多模态基准

多场景长篇语音生成的综合基准评测

RedactionBench

MTR-DuplexBench：全双工语音语言模型多轮对话的综合评估基准

提交意见反馈