multilingual-asr

#multilingual-asr

From Monolingual to Multilingual: Evaluating Mamba for ASR in South African Languages

arXiv cs.CL ↗ · yesterday Cached

This paper evaluates the Mamba state space model for ASR on seven South African languages, finding it matches Conformer accuracy with fewer resources, and explores multilingual training strategies and low-resource settings.

0 favorites 0 likes

#multilingual-asr

Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs

Hugging Face Daily Papers ↗ · 2026-06-04 Cached

This paper investigates whether code-switching ASR capabilities learned from limited seen language pairs can generalize to unseen pairs using model merging and domain generalization methods, finding only modest transfer.

0 favorites 0 likes

#multilingual-asr

Real-time multilingual ASR using rolling buffers and monolingual models [P]

Reddit r/MachineLearning ↗ · 2026-06-01

A routing-based approach for real-time multilingual ASR that uses smaller monolingual models with a rollback mechanism to handle language switches, achieving ~13% WER on inter-utterance code-switching and open-sourcing the system.

0 favorites 0 likes

#multilingual-asr

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

arXiv cs.CL ↗ · 2026-05-26 Cached

This paper applies Direct Preference Optimization (DPO) to align Audio LLMs for transcribing English-Mandarin code-switching speech, achieving up to 89.6% MER reduction in-distribution and 20% out-of-distribution. It identifies three failure modes—language omission, translation instead of transcription, and hallucination—and shows that preference-based alignment effectively elicits correct code-switching behavior from multilingual Audio LLMs.

0 favorites 0 likes

#multilingual-asr

Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

Hugging Face Daily Papers ↗ · 2026-05-13 Cached

Introduces Vividh-ASR, a complexity-tiered benchmark for Hindi and Malayalam ASR, identifies studio-bias in fine-tuning, and proposes R-MFT to improve spontaneous speech performance efficiently.

0 favorites 0 likes

#multilingual-asr

MUSCAT: MUltilingual, SCientific ConversATion Benchmark

arXiv cs.CL ↗ · 2026-04-20 Cached

MUSCAT is a new multilingual, scientific conversation benchmark dataset for evaluating ASR systems on challenging multilingual scenarios including code-switching, domain-specific vocabulary, and mixed language input. The dataset consists of bilingual discussions on scientific papers between speakers using different languages, with results showing current state-of-the-art systems struggle with these multilingual challenges.

0 favorites 0 likes

multilingual-asr

From Monolingual to Multilingual: Evaluating Mamba for ASR in South African Languages

Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs

Real-time multilingual ASR using rolling buffers and monolingual models [P]

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

MUSCAT: MUltilingual, SCientific ConversATion Benchmark

Submit Feedback