标签
Whisper large-v3-turbo 已压缩至 368 MB,采用 Q3_K 匹配的量化感知训练,并报告了多语言词错误率结果。
Whisperian是一款Android应用,允许用户使用麦克风配合本地自动语音识别(ASR)模型,且该应用可在Play Store获取。
本文提出了NEST-V1,一个用于从语音输入生成情感条件尼泊尔手语虚拟形象的概念验证多模态框架,在包含50名说话者600个音频样本的数据集上实现了81.1%的ASR准确率和79.21%的情感识别准确率。
本文提出了一种基于误差感知TF-IDF检索增强生成的框架,用于校正自动语音识别错误,在波斯语FLEURS数据集上取得了显著的准确率提升,且推理延迟几乎为零。
本文研究了数据规模与延迟对流式ASR跨语言迁移的影响,发现多语言初始化的优势受限于数据量而非延迟,且随着目标语言数据的增加而减弱。
本文采用逐层探测的方法,研究wav2vec 2.0和Whisper如何编码非裔美国人英语中的辅音丛简化现象,发现这两个模型均能区分简化形式和规范形式,并保留了底层塞音的线索。
介绍FFASR排行榜,这是一个开放、社区驱动的基准测试,用于在真实远场声学条件下评估自动语音识别模型,突显了近场和远场场景之间的显著性能差距。
NVIDIA 悄然发布了 Nemotron-3.5-ASR,这是一个轻量级、参数规模为 0.6B 的开源语音识别模型,专为实时流式传输设计,支持 40 多种语言、低延迟和缓存感知架构。
EdgeSpeak 桌面端语音转录工具正式上线,搭载本地 Lattice-2 语音大模型,支持离线音视频转录、多种语言和口音,并提供本地 API 接口以便开发者集成。
Andrew Ng宣布了一门新课程,关于使用VocalBridge为AI智能体添加语音功能,由其CEO授课。课程涵盖三种集成模式和评估技术,用于构建可靠且低延迟的语音应用。
ASTRA 是一款用于空中交通管制操作员的端到端训练模拟器,通过本地化适配的语音模型自动执行模拟飞行员(sim pilot)角色,在新加坡口音的航空语音中大幅降低了词错误率,并整合了AI辅助性能评估。
parakeet.cpp 能够在本地的 OpenAI API 背后运行 NVIDIA Parakeet ASR,提供预构建的 Docker 镜像,支持 CPU 和 CUDA(包括 arm64),实现带有词级时间戳的实时转录。
本研究评估了使用语言识别令牌进行双语微调以改进低资源语言ASR的方法,涉及九个多样化的语言对。结果发现,高语言识别准确率是有益的,而在语言识别准确率低的情况下,在推理时提供语言识别令牌可以提升性能。
一家语音公司训练了一个模型,该模型能消除噪声并识别主要说话者,在嘈杂环境中,领先的ASR模型的词错误率降低了50%。
本文介绍了 MoDiCoL,一个用于鲁棒语音识别的模块化诊断持续学习数据集,能够对语言内容、说话人特征和声学环境进行受控分析,并提出了一个持续学习课程,以研究鲁棒性是如何获取、迁移和遗忘的。
本文提出了一种连续学习方法,将非流利标记整合到预训练的ASR模型中,解决了灾难性遗忘问题,并提升了对非流利语音的识别能力。
在PyTorch Conference Europe 2026上,Mistral AI的Patrick von Platen解释了为什么现实世界的AI交互需要能够处理连续输入并产生连续输出的流式架构,并以Vox Real Time作为实时转录示例。
WhisperX是一个用于快速自动语音识别的工具,提供词级时间戳和说话人分离,使用Whisper large-v2实现70倍实时转录。
本文讲解了如何为语音转录模型实现ASR偏置(ASR biasing),并借助Groq和本地模型的示例进行说明,同时介绍了集成该功能的开源项目Freestyle。