@TencentHunyuan: AI真的能编辑音频,而不仅仅是生成吗?腾讯混元与SJTU、SII、NTU、TJU、ZODA、PKU、FDU等单位合作,推出……
摘要
MMAE是一个全面的多任务音频编辑基准,用于评估AI通过自然语言指令精确修改现有音频片段的能力,目前模型准确匹配率低于5%。
查看缓存全文
缓存时间: 2026/06/08 07:21
AI 真的能编辑音频,而不仅仅是生成它吗?
腾讯混元与上海交通大学、SII、NTU、TJU、ZODA、北京大学、复旦大学等合作机构联手,推出了 MMAE。
MMAE——大规模多任务音频编辑基准,是首个针对语音和音频“Banana“ 的综合评估基准。
它不仅仅是要求 AI “生成“音频,而是要求 AI 理解现有音频片段,并根据自然语言指令进行精确修改——改变需要修改的部分,同时保持其余部分不变。
当前模型的精确匹配率(EMR)低于 5%,这揭示了在可靠音频编辑方面存在的重大差距。
MMAE 包含: 2000 个来自真实场景的高保真样本 17,741 个细粒度评分标准评估项 覆盖声音、音乐、语音及其混合的 7 种模态设置 从基本修改到多跳推理和多轮编辑的 6 个任务复杂度级别 覆盖局部和全局粒度的 8 种操作类型
如何使用: arXiv: http://arxiv.org/abs/2606.07229 GitHub: https://github.com/ddlBoJack/MMAE HuggingFace: https://huggingface.co/datasets/BoJack/MMAE… Demo: https://youtu.be/6At5nTWhlXI
MMAE: 大规模多任务音频编辑基准
来源: https://arxiv.org/abs/2606.07229 作者: Ziyang Ma (https://arxiv.org/search/cs?searchtype=author&query=Ma,+Z), Ruiqi Yan (https://arxiv.org/search/cs?searchtype=author&query=Yan,+R), Ruiyang Xu (https://arxiv.org/search/cs?searchtype=author&query=Xu,+R), Jie Fang (https://arxiv.org/search/cs?searchtype=author&query=Fang,+J), Zhikang Niu (https://arxiv.org/search/cs?searchtype=author&query=Niu,+Z), Yi-Wen Chao (https://arxiv.org/search/cs?searchtype=author&query=Chao,+Y), Wenming Tu (https://arxiv.org/search/cs?searchtype=author&query=Tu,+W), Tianrui Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+T), Auden (https://arxiv.org/search/cs?searchtype=author&query=Auden), Qi Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+Q), Wenxi Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+W), Jiaying Chi (https://arxiv.org/search/cs?searchtype=author&query=Chi,+J), Yanru Huo (https://arxiv.org/search/cs?searchtype=author&query=Huo,+Y), Zixuan Jiang (https://arxiv.org/search/cs?searchtype=author&query=Jiang,+Z), Xiquan Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+X), Yalin Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+Y), Junxi Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+J), Minghao Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+M), Binghao Qiang (https://arxiv.org/search/cs?searchtype=author&query=Qiang,+B), Yijia Shan (https://arxiv.org/search/cs?searchtype=author&query=Shan,+Y), Zheshu Song (https://arxiv.org/search/cs?searchtype=author&query=Song,+Z), Tian Tan (https://arxiv.org/search/cs?searchtype=author&query=Tan,+T), Zixiang Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Z), Zeyu Xie (https://arxiv.org/search/cs?searchtype=author&query=Xie,+Z), Zhifei Xie (https://arxiv.org/search/cs?searchtype=author&query=Xie,+Z), Xiaoyu Xing (https://arxiv.org/search/cs?searchtype=author&query=Xing,+X), Qixiang Xu (https://arxiv.org/search/cs?searchtype=author&query=Xu,+Q), Chen Yang (https://arxiv.org/search/cs?searchtype=author&query=Yang,+C), Guanrou Yang (https://arxiv.org/search/cs?searchtype=author&query=Yang,+G), Shan Yang (https://arxiv.org/search/cs?searchtype=author&query=Yang,+S), Yifan Yang (https://arxiv.org/search/cs?searchtype=author&query=Yang,+Y), Steve Yves (https://arxiv.org/search/cs?searchtype=author&query=Yves,+S), Haotian Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+H), Haina Zhu (https://arxiv.org/search/cs?searchtype=author&query=Zhu,+H), Kai Yu (https://arxiv.org/search/cs?searchtype=author&query=Yu,+K), Liefeng Bo (https://arxiv.org/search/cs?searchtype=author&query=Bo,+L), Eng-Siong Chng (https://arxiv.org/search/cs?searchtype=author&query=Chng,+E), Xie Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+X)
查看 PDF (https://arxiv.org/pdf/2606.07229)
摘要: 我们提出了 MMAE,一个大规模多任务音频编辑基准,作为首个为通用指令式音频编辑设计的综合评估测试平台。受智能创作趋势的推动,交互式编辑已从视觉领域(如用于图像的 Nano-banana 2 和用于视频的 Gemini-Omni 等模型率先探索)迅速扩展到音频领域。然而,当前的评估基础设施严重滞后,仍然高度碎片化,局限于特定的子领域或基本操作。与现有范围有限的基准不同,MMAE 扩展到了广泛的真实场景,涵盖了 7 种不同的音频模态,包括声音、语音、音乐及其混合。此外,我们建立了一个全面的分类体系,涵盖 6 个任务复杂度级别(从基本修改到多跳推理和多轮编辑)、2 个粒度级别以及 8 种不同的操作类型。通过人工与智能体协作精心策划,MMAE 包含 2000 个高保真样本,并配以开创性的基于评分标准的评估框架。通过将自由形式任务分解为 17,741 个可验证的标准,这一稳健的基于评分标准的范式实现了对指令遵循和上下文一致性的精确、多维评估。我们对主流模型的广泛评估表明,当前系统远未达到可靠编辑的水平。值得注意的是,精确匹配率 (EMR) 始终低于 5%,在复杂的混合模态任务中甚至降至绝对的 0%,揭示了在精确执行和结构鲁棒性方面的关键瓶颈。我们希望 MMAE 能够成为智能创作社区未来进步的催化剂,为下一代音频编辑系统提供清晰的诊断路线图,并建立标准化、持久的评估范式。
提交历史
来自: Ziyang Ma [查看邮件 (https://arxiv.org/show-email/4d657924/2606.07229)] [v1] 2026年6月5日 星期五 12:52:41 UTC (4,461 KB)
相似文章
MMAE:一个大规模多任务音频编辑基准
MMAE是一个全面的基于指令的音频编辑基准,涵盖多种模态和复杂度级别,揭示了当前模型能力中的显著差距。
Uni-Edit:智能编辑是统一模型调优的通用任务
Uni-Edit提出使用智能图像编辑作为单一通用任务,以同时提升统一多模态模型的理解、生成和编辑能力,并配备自动化数据合成流程生成复杂的编辑指令。
EditLens: 量化文本中AI编辑的程度 (2025)
EditLens是一个回归模型,用于量化文本中AI编辑的程度,在区分人类、AI及混合写作的二元和三元分类任务上达到了最先进的性能。它弥补了检测AI编辑文本而非完全AI生成文本的空白,对作者归属、教育和政策具有重要意义。
@FeitengLi: 其实这些问题都能很好的解决了 1. 扔掉 whisper,换 ASR 模型,Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择,whisper 幻觉多也要求 30s片段,Qwen3-ASR 塞更长的音频识别越准确,最大支持 20…
推荐使用Qwen3-ASR替代Whisper以减少幻觉,使用LattifAI工具进行精确的音文本对齐和字幕生成,并介绍自己的OmniVAD-Kit项目用于语音活动检测。
Tyto by ai-coustics
Tyto by ai-coustics 是一款提供音频洞察以预测语音AI性能的工具。