multilingual-asr

标签

Cards List
#multilingual-asr

从单语到多语:评估Mamba在南非语言中的ASR性能

arXiv cs.CL · 2天前 缓存

本文评估了Mamba状态空间模型在七种南非语言上的ASR性能,发现其在资源更少的情况下达到了与Conformer相当的准确率,并探讨了多语训练策略和低资源场景。

0 人收藏 0 人点赞
#multilingual-asr

迈向真正多语言ASR:将代码切换ASR泛化到未见过的语言对

Hugging Face Daily Papers · 2026-06-04 缓存

本文研究了从有限的已见语言对学到的代码切换ASR能力是否可以通过模型合并和域泛化方法泛化到未见过的语言对,结果发现只有有限的迁移。

0 人收藏 0 人点赞
#multilingual-asr

使用滚动缓冲区和单语模型的实时多语言ASR [P]

Reddit r/MachineLearning · 2026-06-01

一种基于路由的实时多语言ASR方法,使用较小的单语模型并配备回滚机制来处理语言切换,在跨语句代码切换上实现了约13%的词错误率,并将系统开源。

0 人收藏 0 人点赞
#multilingual-asr

面向中英文混合语音识别的音频大语言模型直接偏好优化

arXiv cs.CL · 2026-05-26 缓存

本文应用直接偏好优化(DPO)来对齐音频大语言模型,以转录中英文混合语音,在分布内实现了高达89.6%的MER降低,在分布外实现了20%的降低。它识别出三种失败模式——语言遗漏、翻译替代转录以及幻觉——并表明基于偏好的对齐能有效激发多语言音频大语言模型的正确混合转写行为。

0 人收藏 0 人点赞
#multilingual-asr

Vividh-ASR:面向稳健印度语音识别的复杂度分层基准与优化动态

Hugging Face Daily Papers · 2026-05-13 缓存

介绍了用于印地语和马拉雅拉姆语ASR的复杂度分层基准Vividh-ASR,指出了微调中的录音室偏差,并提出了R-MFT以高效提升自发言语性能。

0 人收藏 0 人点赞
#multilingual-asr

MUSCAT:多语言科学对话基准

arXiv cs.CL · 2026-04-20 缓存

MUSCAT是一个新的多语言科学对话基准数据集,用于评估ASR系统在具有挑战性的多语言场景中的表现,包括代码混合、特定领域词汇和混合语言输入。该数据集包含使用不同语言的说话者之间关于科学论文的双语讨论,结果表明当前的最先进系统在应对这些多语言挑战时存在困难。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈