language-identification

#language-identification

Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation

arXiv cs.CL ↗ · yesterday Cached

This study evaluates bilingual fine-tuning with language identification tokens for improving ASR in low-resource languages across nine diverse language pairs, finding that high LID accuracy is beneficial and that providing the LID token at inference can boost performance when LID accuracy is low.

0 favorites 0 likes

#language-identification

Accelerating researchers and developers building multilingual AI with a new open dataset (7 minute read)

TLDR AI ↗ · 2d ago Cached

GitHub announces the GitHub Multilingual Repositories Dataset, an open metadata dataset covering over 80 million classification rows across 40 million repositories to help researchers and developers build multilingual AI tools.

0 favorites 0 likes

language-identification

Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation

Accelerating researchers and developers building multilingual AI with a new open dataset (7 minute read)

Submit Feedback