MMAE:一个大规模多任务音频编辑基准

Hugging Face Daily Papers 论文

摘要

MMAE是一个全面的基于指令的音频编辑基准,涵盖多种模态和复杂度级别,揭示了当前模型能力中的显著差距。

我们推出了MMAE,即大规模多任务音频编辑基准,作为首个专为通用基于指令的音频编辑设计的多功能评估测试平台。受智能创作趋势的推动,交互式编辑已从视觉领域迅速扩展到音频领域,其先驱包括用于图像的Nano-banana 2和用于视频的Gemini-Omni等模型。然而,当前的评估基础设施严重滞后,仍然高度碎片化,局限于特定的子领域或基本操作。与现有范围有限的基准不同,MMAE涵盖了广泛的实际场景,包含7种不同的音频模态,包括声音、语音、音乐及其混合。此外,我们建立了一个全面的分类体系,涵盖6个任务复杂度级别(从基本修改到多跳推理和多轮编辑)、2个粒度级别和8种不同的操作类型。通过人机协作精心策划,MMAE包含2,000个高保真样本,并配以开创性的基于评分标准的评估框架。通过将自由形式任务分解为17,741个可验证的标准,这种强大的基于评分标准的范式能够对指令遵循和上下文一致性进行精确的多维度评估。我们对领先模型的广泛评估表明,当前系统距离实现可靠编辑仍有很大差距。令人震惊的是,精确匹配率(EMR)持续低于5%,在复杂的混合模态任务中更是暴跌至绝对的0%,暴露出精确执行和结构鲁棒性方面的关键瓶颈。我们希望MMAE能够成为智能创作社区未来进步的催化剂,提供清晰的诊断路线图,并为下一代音频编辑系统建立标准化、持久的评估范式。
查看原文
查看缓存全文

缓存时间: 2026/06/08 07:14

论文页面 - MMAE: 大规模多任务音频编辑基准

来源:https://huggingface.co/papers/2606.07229 发布于 6月5日

#2 当日论文 (https://huggingface.co/papers/date/2026-06-08) 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

MMAE 提出了一个全面的基准测试,用于跨多种模态和复杂度级别的基于指令的音频编辑,揭示了当前模型能力中的显著差距。

我们介绍了 MMAE(大规模多任务音频编辑 (https://huggingface.co/papers?q=Multitask%20Audio%20Editing) 基准),这是首个专为通用基于指令的音频编辑 (https://huggingface.co/papers?q=instruction-based%20audio%20editing) 设计的综合评估测试平台。受智能创作趋势推动,交互式编辑已从视觉领域迅速扩展至音频领域——此前视觉领域已有 Nano-banana 2(图像)和 Gemini-Omni(视频)等模型开创先河。然而,当前的评估基础设施严重滞后,仍然高度碎片化,仅限于特定子领域或基础操作。不同于现有基准的有限范围,MMAE 涵盖了广泛的真实世界场景,包括 7 种不同的音频模态 (https://huggingface.co/papers?q=audio%20modalities),如声音、语音、音乐及其混合。此外,我们建立了一个全面的任务复杂度 (https://huggingface.co/papers?q=task%20complexity) 分类体系,涵盖 6 个级别:从基础修改到多跳推理 (https://huggingface.co/papers?q=multi-hop%20reasoning) 和多轮编辑 (https://huggingface.co/papers?q=multi-round%20editing),以及 2 个粒度级别和 8 种不同的操作类型 (https://huggingface.co/papers?q=operation%20types)。通过人机协作精心策划,MMAE 包含 2,000 个高保真样本,并配以开创性的基于量规的评估 (https://huggingface.co/papers?q=rubric-based%20evaluation) 框架。通过将自由形式任务分解为 17,741 个可验证标准,这一强大的基于量规的范式能够实现精准的多维度评估,同时衡量指令遵循与上下文一致性。我们对主流模型的广泛评估表明,当前系统远未达到可靠编辑的水平。令人震惊的是,精确匹配率 (https://huggingface.co/papers?q=Exact%20Match%20Rate) (EMR) 始终低于 5%,并在复杂的混合模态任务中降至绝对的 0%,暴露出精确执行和结构鲁棒性方面的关键瓶颈。我们希望 MMAE 能够成为智能创作社区未来进步的催化剂,提供清晰的诊断路线图,并为下一代音频编辑系统建立标准化、长效的评估范式。

查看 arXiv 页面 (https://arxiv.org/abs/2606.07229) 查看 PDF (https://arxiv.org/pdf/2606.07229) GitHub27 (https://github.com/ddlBoJack/MMAE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07229)

引用此论文的模型 0

暂无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.07229,以在此页面建立链接。

引用此论文的数据集 0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.07229,以在此页面建立链接。

引用此论文的 Space 0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.07229,以在此页面建立链接。

包含此论文的收藏集 0

暂无包含此论文的收藏集

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中,以在此页面建立链接。

相似文章

SpeechEditBench:面向指令引导语音编辑的双语多属性基准

Hugging Face Daily Papers

SpeechEditBench是一个双语多属性基准,用于评估指令引导的语音编辑,涵盖七项原子任务和组合任务,并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明,没有单一模型能在所有维度上表现出色,而组合编辑仍然极具挑战性。

MVEB:大规模视频嵌入基准

Hugging Face Daily Papers

本文介绍了MVEB,一个大规模的视频嵌入基准,涵盖23个任务,发现没有单一模型占据主导地位,并且音频的贡献取决于数据集注释的来源。它整合到MTEB生态系统中,用于统一的多模态评估。