@XieZhifei14110: 别再使用Whisper做语音识别了!开源Mega-ASR——首个全场景SOTA工业级ASR模型,专为……

X AI KOLs Timeline 模型

摘要

开源Mega-ASR,一个全场景SOTA工业级ASR模型,专为远场、噪声等复杂音频环境设计,在真实世界基准测试中比现有开源和闭源模型性能高出10-30%。

别再使用Whisper做语音识别了! 开源Mega-ASR——首个全场景SOTA工业级ASR模型,专为那些别人无法处理的音频场景打造:远场、混响、电气嗡嗡声、设备噪音——真实世界的混乱。 在真实世界的基准测试中,它比开源和闭源的SOTA模型领先10-30%。音频对人类越难,领先幅度越大。
查看原文
查看缓存全文

缓存时间: 2026/05/21 19:39

停止使用 Whisper 做语音识别!

开源 Mega-ASR——首个全场景 SOTA 工业级 ASR 模型,专为那些其他模型无法处理的音频而生:远场、混响、电力噪声、设备噪声,以及现实世界中的各种混乱。

在真实世界基准测试中,Mega-ASR 比开源和闭源的 SOTA 模型领先 10–30%。音频对人类越难,领先优势越大。

等你发现其他模型全都失败之后,你终会回头尝试 Mega-ASR。

核心思路是 ASR-in-the-Wild2,它同时缩放场景和数据规模。

据我们所知,Voices-in-the-Wild-2M 是迄今为止发布的规模最大、场景最丰富的鲁棒 ASR 数据集。7 种标准声学场景被系统性地组合成 54 种重叠条件。

在此基础上,我们提出了首个专门为极端声学条件设计的两阶段后训练方案:

→ A2S-SFT,用于稳定的声学到语义对齐

→ DG-WGPO,一种分布泛化目标,专门用于消除幻觉和漏词问题。

结果:首个在多个真实世界 ASR 基准测试(无论是开源还是闭源)中达到 SOTA 的模型。现有的 SOTA 模型在远场场景下准确率仍低于 50%。Mega-ASR 恰恰在先前模型失效的地方(即便是人类也难以辨别的录音)拉开了最大的差距。

最重要的是:数据、模型、训练代码、评估代码全都完全开源。
arXiv:https://arxiv.org/abs/2605.19833
项目:https://xzf-thu.github.io/Mega-ASR

抱歉,仅支持英文和中文。

相似文章

@MaxForAI: 如果你在做语音Agent,你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了:Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建,目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。

@Honcia13: 开源TTS直接卷疯了!园区诈骗又有新武器? 清华 OpenBMB 刚刚放出 VoxCPM2: 200亿参数 + 200万小时多语言数据训练,48kHz录音棚级音质! 最狠的是——完全不用Tokenizer,直接在连续潜空间做扩散自回归,细…

X AI KOLs Timeline

清华大学 OpenBMB 发布了 VoxCPM2,这是一个拥有 200 亿参数的开源多语言 TTS 模型,支持无需 Tokenizer 的连续潜空间扩散自回归生成,具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。