标签
本文研究了预训练的自监督语音模型(如Wav2Vec2和HuBERT)是否能够准确识别咔嗒辅音(click consonants),这些辅音在训练数据中较为罕见,通过在科伊桑语言(Khoisan languages)上进行微调来测试。结果表明,这些模型识别咔嗒辅音的准确率高于非咔嗒辅音,表明它们能够泛化到不常见的音素。
一位用户尝试对谷歌使用专有模型的新设备端听写应用Eloquent进行基准测试,发现它经常漏词或返回不完整的转录文本,只有在完整输出时准确率才有竞争力。作者推测底层的聊天式模型有时拒绝进行转录。
Cohere Transcribe 是一款开源语音识别模型,在 Hugging Face 新的远场ASR基准测试中荣获第一名。
研究自监督语音识别模型如何跨层编码说话人群体信息(性别、年龄、方言、民族、母语者状态),以及针对ASR或说话人识别等任务的微调如何影响这种编码。
Omi Health创始人微调了NVIDIA的Parakeet TDT 0.6B用于医学ASR,发布了开放权重的模型Omi Med STT v1,在本地Mac、CUDA或CPU上运行时实现了有竞争力的医学WER。
一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示,ONNX Runtime的推理速度比HF Transformers bfloat16快37%,而GGUF则优先考虑内存效率。
提出一种利用语言特定统计图构建的领域感知发音错误检测与诊断方法,在L2-ARCTIC基准上达到59.52%的F1分数,优于多个基线模型。
本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。
微软开源了语音AI框架VibeVoice,支持60分钟长音频一次性转写、多说话人分离和时间戳标注,同时提供多角色TTS合成能力,底层基于Qwen2.5并配有0.5B轻量实时版本,已在GitHub获得24.8k星标。
本文研究了从有限的已见语言对学到的代码切换ASR能力是否可以通过模型合并和域泛化方法泛化到未见过的语言对,结果发现只有有限的迁移。
LaSR提出了一种针对上下文感知语音识别的潜在推理训练范式,围绕声学特征对齐思维链监督,以在无额外延迟的情况下提高术语识别能力,在Fun-Audio-Chat上优于标准微调。
一种基于路由的实时多语言ASR方法,使用较小的单语模型并配备回滚机制来处理语言切换,在跨语句代码切换上实现了约13%的词错误率,并将系统开源。
本文首次对多模态语音识别模型进行了偏见评估,发现在将人脸与音频配对时,跨性别和种族的准确率存在显著差异,这对AI系统的公平性具有重要意义。
parakeet.cpp 是一个快速、轻依赖的C++17推理管道,用于NVIDIA的NeMo Parakeet语音识别模型,基于ggml构建。它能实现与NeMo字节相同的转录结果,并在CPU和GPU上显著提升速度。
这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。
本文介绍了MeDial-Speech,一个用于口语语言处理的机器人-患者与医生-患者医疗对话数据集,并在句子选择基准上评估了三个大型语言模型,发现Claude Sonnet 4最为准确。
本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。
本文应用直接偏好优化(DPO)来对齐音频大语言模型,以转录中英文混合语音,在分布内实现了高达89.6%的MER降低,在分布外实现了20%的降低。它识别出三种失败模式——语言遗漏、翻译替代转录以及幻觉——并表明基于偏好的对齐能有效激发多语言音频大语言模型的正确混合转写行为。
南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。