@XieZhifei14110: 别再使用Whisper做语音识别了！开源Mega-ASR——首个全场景SOTA工业级ASR模型，专为……

X AI KOLs Timeline 2026/05/20 14:21 模型

asr speech-recognition open-source industrial-grade far-field real-world-benchmarks

摘要

开源Mega-ASR，一个全场景SOTA工业级ASR模型，专为远场、噪声等复杂音频环境设计，在真实世界基准测试中比现有开源和闭源模型性能高出10-30%。

别再使用Whisper做语音识别了！开源Mega-ASR——首个全场景SOTA工业级ASR模型，专为那些别人无法处理的音频场景打造：远场、混响、电气嗡嗡声、设备噪音——真实世界的混乱。在真实世界的基准测试中，它比开源和闭源的SOTA模型领先10-30%。音频对人类越难，领先幅度越大。

查看原文

查看缓存全文

缓存时间: 2026/05/21 19:39

停止使用 Whisper 做语音识别！

开源 Mega-ASR——首个全场景 SOTA 工业级 ASR 模型，专为那些其他模型无法处理的音频而生：远场、混响、电力噪声、设备噪声，以及现实世界中的各种混乱。

在真实世界基准测试中，Mega-ASR 比开源和闭源的 SOTA 模型领先 10–30%。音频对人类越难，领先优势越大。

等你发现其他模型全都失败之后，你终会回头尝试 Mega-ASR。

核心思路是 ASR-in-the-Wild2，它同时缩放场景和数据规模。

据我们所知，Voices-in-the-Wild-2M 是迄今为止发布的规模最大、场景最丰富的鲁棒 ASR 数据集。7 种标准声学场景被系统性地组合成 54 种重叠条件。

在此基础上，我们提出了首个专门为极端声学条件设计的两阶段后训练方案：

→ A2S-SFT，用于稳定的声学到语义对齐

→ DG-WGPO，一种分布泛化目标，专门用于消除幻觉和漏词问题。

结果：首个在多个真实世界 ASR 基准测试（无论是开源还是闭源）中达到 SOTA 的模型。现有的 SOTA 模型在远场场景下准确率仍低于 50%。Mega-ASR 恰恰在先前模型失效的地方（即便是人类也难以辨别的录音）拉开了最大的差距。

最重要的是：数据、模型、训练代码、评估代码全都完全开源。
arXiv：https://arxiv.org/abs/2605.19833
项目：https://xzf-thu.github.io/Mega-ASR

抱歉，仅支持英文和中文。

相似文章

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR，一个基于 Qwen3-ASR 构建的完全开源 ASR 模型，通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化，在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降，且仅 1.7B 参数可在消费级硬件高效推理。

@AdinaYakup: Mega-ASR https://huggingface.co/zhifeixie/Mega-ASR… 1.7B 参数，Apache 2.0，专为噪声/混响/截断/重叠说话人场景设计…

X AI KOLs Following

Mega-ASR 是一个1.7B参数的鲁棒ASR模型，采用Apache 2.0许可，专为噪声、混响和重叠语音设计，并配备音频质量路由器来处理干净音频和降质音频。

Mega-ASR: 通过扩展真实世界声学模拟实现 In-the-wild^2 语音识别

Hugging Face Daily Papers

Mega-ASR 提出通过扩展真实世界声学模拟来改进在极具挑战性的野外条件下的自动语音识别，旨在缩小实验室与真实环境之间的性能差距。

@FeitengLi: 其实这些问题都能很好的解决了 1. 扔掉 whisper，换 ASR 模型，Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择，whisper 幻觉多也要求 30s片段，Qwen3-ASR 塞更长的音频识别越准确，最大支持 20…

X AI KOLs Timeline

推荐使用Qwen3-ASR替代Whisper以减少幻觉，使用LattifAI工具进行精确的音文本对齐和字幕生成，并介绍自己的OmniVAD-Kit项目用于语音活动检测。

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…

X AI KOLs Timeline

清华大学 OpenBMB 发布了 VoxCPM2，这是一个拥有 200 亿参数的开源多语言 TTS 模型，支持无需 Tokenizer 的连续潜空间扩散自回归生成，具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。

相似文章

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

@AdinaYakup: Mega-ASR https://huggingface.co/zhifeixie/Mega-ASR… 1.7B 参数，Apache 2.0，专为噪声/混响/截断/重叠说话人场景设计…

Mega-ASR: 通过扩展真实世界声学模拟实现 In-the-wild^2 语音识别

@FeitengLi: 其实这些问题都能很好的解决了 1. 扔掉 whisper，换 ASR 模型，Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择，whisper 幻觉多也要求 30s片段，Qwen3-ASR 塞更长的音频识别越准确，最大支持 20…

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？ 清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！ 最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…

提交意见反馈

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…