automatic-speech-recognition

#automatic-speech-recognition

SpeechLLM与联邦学习结合实现端到端ASR：英语和意大利语案例研究

arXiv cs.CL ↗ · 5天前缓存

本文首次系统研究了基于SpeechLLM的端到端ASR系统的联邦训练，在英语和意大利语任务上进行了评估，在降低通信成本的同时取得了具有竞争力的词错误率。

0 人收藏 0 人点赞

#automatic-speech-recognition

Earnings25：面向金融领域、涵盖500小时的综合性语音基准

arXiv cs.CL ↗ · 6天前缓存

Earnings25是一个500小时的基准，用于评估金融财报电话会议中的自动语音识别，提供对齐的转录文本和结构化元数据，支持考虑说话人和行业的评估。

0 人收藏 0 人点赞

#automatic-speech-recognition

从多语言流式ASR骨干网络到肯尼亚语系系统：面向基库尤语、多洛语和卡伦津语的Nemotron 3.5数据驱动适配

arXiv cs.CL ↗ · 2026-07-22 缓存

本文介绍了一项工程研究，将NVIDIA Nemotron 3.5 ASR Streaming 0.6B适配到基库尤语、多洛语和卡伦津语中。通过语料库审计、规范化、流式评估等数据驱动技术，在内部测试集上分别实现了基库尤语42.97%和多洛语33.98%的词错误率（WER）。

0 人收藏 0 人点赞

#automatic-speech-recognition

COALA：通过对比正则化器和偏置分数估计实现的鲁棒上下文语音增强语言建模用于ASR

arXiv cs.CL ↗ · 2026-07-10 缓存

COALA是一个鲁棒的上下文偏置框架，用于自动语音识别（ASR），它利用对比正则化器和偏置分数估计来提升从大规模偏置列表中识别领域特定实体的准确性。在LibriSpeech上的实验表明其持续表现出色。

0 人收藏 0 人点赞

#automatic-speech-recognition

利用多模态特征融合联合改进印度语言中的方言识别与语音识别

arXiv cs.CL ↗ · 2026-07-07 缓存

本文提出了一种多模态框架，利用瓶颈编码器和带门控机制的RoBERTa，联合改进印度语言的自动语音识别（ASR）和方言识别（DID）。在包含33种方言的八种语言上评估，该方法实现了81.63%的方言识别准确率，并将CER/WER降低至4.65%/17.73%。

0 人收藏 0 人点赞

#automatic-speech-recognition

面向数据高效的代码切换ASR的强化学习

arXiv cs.CL ↗ · 2026-07-07 缓存

介绍了一种具有可验证奖励的强化学习方案，用于将音频语言模型数据高效地适应到代码切换ASR，在10个语言对上以最少数据实现了显著提升。

0 人收藏 0 人点赞

#automatic-speech-recognition

重新思考语音-LLM集成用于ASR：通过交错实现有效的联合语音-文本训练

arXiv cs.CL ↗ · 2026-07-03 缓存

本文提出联合语音-文本交错预训练（JSTIP），这是一种预训练策略，通过构建词级和段级交错的语音-文本序列来提高ASR实体准确率并缩小语音与文本之间的模态差距，在领域自适应和零样本语音问答上展示了有竞争力的性能。

0 人收藏 0 人点赞

#automatic-speech-recognition

从单语到多语：评估Mamba在南非语言中的ASR性能

arXiv cs.CL ↗ · 2026-07-03 缓存

本文评估了Mamba状态空间模型在七种南非语言上的ASR性能，发现其在资源更少的情况下达到了与Conformer相当的准确率，并探讨了多语训练策略和低资源场景。

0 人收藏 0 人点赞

#automatic-speech-recognition

构建用于儿童阅读训练与评估的ASR解决方案

arXiv cs.CL ↗ · 2026-07-01 缓存

介绍了一个用于评估班巴拉语儿童阅读的开源ASR系统，包括现场数据收集、基准构建、模型适配和课堂验证，实现了显著的词错误率降低。

0 人收藏 0 人点赞

#automatic-speech-recognition

是什么来着？自动语音识别的认证鲁棒性

arXiv cs.LG ↗ · 2026-06-29 缓存

本文提出了一种基于认证的自动语音识别机制，采用双门诊断流水线（Two-Sided Atomic Audit 和 Rank-Based Tournament）来提供认证鲁棒性，并在多种架构上实现了词错误率高达55%的相对降低。

0 人收藏 0 人点赞

#automatic-speech-recognition

SamaVaani：印度语言多语言临床ASR的审计与去偏

arXiv cs.CL ↗ · 2026-06-26 缓存

本文对印度语言的精神病学访谈中的多语言临床ASR系统进行了系统性审计，并提出了SamaVaani，一种统一的去偏技术，旨在提升跨人口群体的性能与公平性。

0 人收藏 0 人点赞

#automatic-speech-recognition

针对《古兰经》语音识别的预训练Transformer模型比较研究：语音表示、标签格式与数据集构成

arXiv cs.AI ↗ · 2026-06-20 缓存

本文系统性地实证研究了针对《古兰经》自动语音识别（ASR）的预训练Transformer模型（Wav2Vec2.0、HuBERT、XLS-R）微调，在EveryAyah子集上实现了0.08的词错误率（WER），并将训练时间从140小时减少到40小时，其中Wav2Vec2-XLSR-53提供了最佳表示。

0 人收藏 0 人点赞

#automatic-speech-recognition