标签
研究自监督语音识别模型如何跨层编码说话人群体信息(性别、年龄、方言、民族、母语者状态),以及针对ASR或说话人识别等任务的微调如何影响这种编码。
ServiceNow AI 发布了一个基准测试和数据集,用于评估自动语音识别(ASR)在跨四种语言对(西班牙语-英语、法语-英语、加拿大法语-英语、德语-英语)的企业HR和IT场景中的代码切换语音上的表现,发现当前前沿ASR模型在代码切换方面仍存在困难,导致错误率较高。
提出了一种POI感知的对比训练框架,利用LLM生成的近失假设来增强ASR在代码切换区域的鲁棒性,在两个基准测试上实现了一致的错误率降低。
一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示,ONNX Runtime的推理速度比HF Transformers bfloat16快37%,而GGUF则优先考虑内存效率。
一位从业者认为,在 AI 辅导系统中,语音启动延迟才是关键因素,而非模型的选择。他建议将语音启动延迟控制在 1 秒以内,并强调流式 TTS 是优化效果最显著的手段。文章梳理了从 ASR 到 TTS 再到虚拟形象同步的完整处理链路,并指出延迟叠加最严重的环节。
微软开源了语音AI框架VibeVoice,支持60分钟长音频一次性转写、多说话人分离和时间戳标注,同时提供多角色TTS合成能力,底层基于Qwen2.5并配有0.5B轻量实时版本,已在GitHub获得24.8k星标。
pyVideoTrans 是一个开源视频翻译工具,支持自动语音识别、字幕翻译、AI 配音和视频合成,集成了多种 ASR、翻译和 TTS 引擎,适合跨语言视频制作和本地化。
SALSA提出了一种轻量级自适应方法,用于语音感知的大语言模型,通过监督目标学习逐层引导向量,在域外语音基准上取得了显著改进(相对提升高达46.8%),并表明引导编码器层(尤其是较深层)比修改LLM主干更有效。
parakeet.cpp 是一个快速、轻依赖的C++17推理管道,用于NVIDIA的NeMo Parakeet语音识别模型,基于ggml构建。它能实现与NeMo字节相同的转录结果,并在CPU和GPU上显著提升速度。
这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。
本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。
南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。
本文介绍了CLD,一种基于凸优化的轻量级语言检测头(用于ASR),在不到100个训练样本下实现97-98%的准确率,同时将计算成本降低13倍,解决了5种语言和24种子方言的口音和方言鲁棒性问题。
StepAudio 2.5 是一个统一的音频-语言模型,通过利用针对任务定制的基于人类反馈的强化学习来优化共享表示,在自动语音识别(ASR)、文本转语音(TTS)和实时口语交互方面取得了最先进的结果。
Mega-ASR 是一个1.7B参数的鲁棒ASR模型,采用Apache 2.0许可,专为噪声、混响和重叠语音设计,并配备音频质量路由器来处理干净音频和降质音频。
SCRIBE 是一个用于自动语音识别的诊断评估框架,为印度语言提供分类错误分解,并发布了 Hindi、Malayalam 和 Kannada 的基准和开源权重富转录模型。
开源Mega-ASR,一个全场景SOTA工业级ASR模型,专为远场、噪声等复杂音频环境设计,在真实世界基准测试中比现有开源和闭源模型性能高出10-30%。
阶跃星辰推出Step Plan订阅服务,月费6.99美元,整合了LLM、TTS、ASR、图像生成等多种AI模型,支持OpenAI SDK直连,可用于语音复刻、会议转写、AI播客生成等场景。
本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。
Mega-ASR 提出通过扩展真实世界声学模拟来改进在极具挑战性的野外条件下的自动语音识别,旨在缩小实验室与真实环境之间的性能差距。