标签
本文使用音素错误率和新的Soft PER指标,评估了基于音素的自动语音识别系统(特别是WhisperIPA和ZIPA)中的人口统计和口音偏见,揭示了跨语言和群体的持续差异。
ServiceNow AI 发布了一个基准测试和数据集,用于评估自动语音识别(ASR)在跨四种语言对(西班牙语-英语、法语-英语、加拿大法语-英语、德语-英语)的企业HR和IT场景中的代码切换语音上的表现,发现当前前沿ASR模型在代码切换方面仍存在困难,导致错误率较高。
本文介绍了Semantic Gambit攻击,它利用LLM预测为自动语音识别系统生成实时对抗扰动,相较先前方法实现了三倍的词错误率提升。
本文介绍了 Agentic ASR,一种交互式语音识别框架,通过语义修正和基于推理的编辑,利用多轮优化来减少语义错误。同时,提出了一种新的句子级语义错误率指标以及一个用于基准测试的交互式模拟系统。
SCRIBE 是一个用于自动语音识别的诊断评估框架,为印度语言提供分类错误分解,并发布了 Hindi、Malayalam 和 Kannada 的基准和开源权重富转录模型。
FormalASR 提出了两个紧凑的端到端模型,可直接将中文口语转录为正式书面文本,显著降低错误率,并消除了对单独 LLM 后处理阶段的需求,实现了轻量级的设备端部署。
NVIDIA 发布 Nemotron 3.5 ASR,这是一个6亿参数的多语言流式语音识别模型,支持40种语言区域,采用缓存感知的FastConformer-RNNT架构实现低延迟转录。该模型支持可配置的块大小,并已在OpenMDW-1.1许可证下准备商业化使用。