嘈杂环境中的语音代理
摘要
一家语音公司训练了一个模型,该模型能消除噪声并识别主要说话者,在嘈杂环境中,领先的ASR模型的词错误率降低了50%。
我从一年多前就开始从事语音代理方面的工作。但在某些环境中,它们总是出问题——噪声、周围人说话等等。我寻找过解决方案,甚至在几个子版块(subreddits)上提问,但都没找到好用的。作为一家语音公司,我们决定解决这个问题。我们训练了一个模型,它能识别主要说话者并消除所有其他声音。经过数月的探索、数据获取和多次模型迭代,我们构建出的东西现在正在超越行业基准——在领先的ASR模型上实现了50%更低的词错误率(WER)。由于我经常关注并从本群学习,只是想分享一下这段经历。:)
相似文章
@MaxForAI: 如果你在做语音Agent,你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了:Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建,目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…
南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。
语音助手能处理双语客户吗?前沿ASR在代码切换语音上的基准测试
ServiceNow AI 发布了一个基准测试和数据集,用于评估自动语音识别(ASR)在跨四种语言对(西班牙语-英语、法语-英语、加拿大法语-英语、德语-英语)的企业HR和IT场景中的代码切换语音上的表现,发现当前前沿ASR模型在代码切换方面仍存在困难,导致错误率较高。
@FeitengLi: 其实这些问题都能很好的解决了 1. 扔掉 whisper,换 ASR 模型,Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择,whisper 幻觉多也要求 30s片段,Qwen3-ASR 塞更长的音频识别越准确,最大支持 20…
推荐使用Qwen3-ASR替代Whisper以减少幻觉,使用LattifAI工具进行精确的音文本对齐和字幕生成,并介绍自己的OmniVAD-Kit项目用于语音活动检测。
转录儿童语音:ASR性能与获取可靠的正字法转写
这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。
迈向类人交互式语音识别:基于智能体修正与语义评估
本文介绍了 Agentic ASR,一种交互式语音识别框架,通过语义修正和基于推理的编辑,利用多轮优化来减少语义错误。同时,提出了一种新的句子级语义错误率指标以及一个用于基准测试的交互式模拟系统。