automatic-speech-recognition

标签

Cards List
#automatic-speech-recognition

基于音素的自动语音识别系统中的偏见评估:对IPA转录模型的分析

arXiv cs.CL · 5天前 缓存

本文使用音素错误率和新的Soft PER指标,评估了基于音素的自动语音识别系统(特别是WhisperIPA和ZIPA)中的人口统计和口音偏见,揭示了跨语言和群体的持续差异。

0 人收藏 0 人点赞
#automatic-speech-recognition

语音助手能处理双语客户吗?前沿ASR在代码切换语音上的基准测试

Hugging Face Blog · 6天前 缓存

ServiceNow AI 发布了一个基准测试和数据集,用于评估自动语音识别(ASR)在跨四种语言对(西班牙语-英语、法语-英语、加拿大法语-英语、德语-英语)的企业HR和IT场景中的代码切换语音上的表现,发现当前前沿ASR模型在代码切换方面仍存在困难,导致错误率较高。

0 人收藏 0 人点赞
#automatic-speech-recognition

聆听未言之语:针对声学对抗攻击的语言模型先验

arXiv cs.LG · 2026-06-08 缓存

本文介绍了Semantic Gambit攻击,它利用LLM预测为自动语音识别系统生成实时对抗扰动,相较先前方法实现了三倍的词错误率提升。

0 人收藏 0 人点赞
#automatic-speech-recognition

迈向类人交互式语音识别:基于智能体修正与语义评估

Hugging Face Daily Papers · 2026-05-28 缓存

本文介绍了 Agentic ASR,一种交互式语音识别框架,通过语义修正和基于推理的编辑,利用多轮优化来减少语义错误。同时,提出了一种新的句子级语义错误率指标以及一个用于基准测试的交互式模拟系统。

0 人收藏 0 人点赞
#automatic-speech-recognition

SCRIBE:面向Indic ASR的诊断评估与富转录模型

arXiv cs.CL · 2026-05-21 缓存

SCRIBE 是一个用于自动语音识别的诊断评估框架,为印度语言提供分类错误分解,并发布了 Hindi、Malayalam 和 Kannada 的基准和开源权重富转录模型。

0 人收藏 0 人点赞
#automatic-speech-recognition

FormalASR: 端到端中文口语到正式文本转换

arXiv cs.CL · 2026-05-20 缓存

FormalASR 提出了两个紧凑的端到端模型,可直接将中文口语转录为正式书面文本,显著降低错误率,并消除了对单独 LLM 后处理阶段的需求,实现了轻量级的设备端部署。

0 人收藏 0 人点赞
#automatic-speech-recognition

nvidia/nemotron-3.5-asr-streaming-0.6b

Hugging Face Models Trending · 2026-05-15 缓存

NVIDIA 发布 Nemotron 3.5 ASR,这是一个6亿参数的多语言流式语音识别模型,支持40种语言区域,采用缓存感知的FastConformer-RNNT架构实现低延迟转录。该模型支持可配置的块大小,并已在OpenMDW-1.1许可证下准备商业化使用。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈