Vividh-ASR：面向稳健印度语音识别的复杂度分层基准与优化动态

Hugging Face Daily Papers 2026/05/13 00:00 论文

indic-speech-recognition asr fine-tuning benchmark whisper multilingual-asr low-resource-languages

摘要

介绍了用于印地语和马拉雅拉姆语ASR的复杂度分层基准Vividh-ASR，指出了微调中的录音室偏差，并提出了R-MFT以高效提升自发言语性能。

微调多语言ASR模型（如Whisper）用于低资源语言时，通常能改善朗读语音，但会降低自发言语性能，我们将这一现象称为录音室偏差。为诊断此不匹配，我们引入了Vividh-ASR，这是一个针对印地语和马拉雅拉姆语的复杂度分层基准，涵盖四个层级：录音室、广播、自发和合成噪声。通过控制学习率时机和课程排序的研究，我们发现早期的大参数更新可使全局词错误率（WER）降低12个绝对百分点，而难到易的课程排序进一步提升了自发言语的性能。这些发现启发了反向多阶段微调（R-MFT），这是一种训练方案，使参数高效的244M Whisper模型能够匹配甚至超越传统微调的769M对应模型。通过CKA和SVD的表征分析揭示了有效的调度方案将适应集中在解码器，保留了预训练编码器的声学几何。我们发布了该基准和模型。

查看原文

查看缓存全文

缓存时间: 2026/05/14 08:17

论文页面 - Vividh-ASR：面向稳健印度语言语音识别的复杂度分层基准与优化动态

来源：https://huggingface.co/papers/2605.13087

摘要

研究发现，多语言 ASR 微调中存在录音室偏差（studio-bias），并提出了 R-MFT 方法，以在保持效率的同时改善自发语音性能。

针对低资源语言微调诸如 Whisper 的多语言 ASR 模型，通常能提升朗读语音表现，但会降低自发音频性能，我们将此现象称为录音室偏差（studio-bias）。为诊断这一不匹配问题，我们引入了 Vividh-ASR，这是一个针对印地语和马拉雅拉姆语的复杂度分层基准，涵盖四个层级：录音室、广播、自发及合成噪声。通过对学习率时机和课程顺序的受控研究，我们发现早期的大参数更新可将全局词错误率（WER）绝对降低 12 个百分点，而“难到易”的课程顺序则为自发语音带来额外提升。这些发现催生了反向多阶段微调（R-MFT）训练方案，使得一个参数高效的 244M Whisper 模型能够匹配甚至超越传统微调的 769M 模型。通过 CKA 和 SVD 的表征分析揭示，有效的调度策略将适应集中在解码器上，从而保留了预训练编码器的声学几何结构。我们已发布该基准和模型。

查看 arXiv 页面 (https://arxiv.org/abs/2605.13087) 查看 PDF (https://arxiv.org/pdf/2605.13087) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13087)

在您的 agent 中获取此论文：

hf papers read 2605.13087

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

尚无模型链接此论文。

请在模型 README.md 中引用 arxiv.org/abs/2605.13087 以在此页面建立链接。

引用此论文的数据集 0

尚无数据集链接此论文。

请在数据集 README.md 中引用 arxiv.org/abs/2605.13087 以在此页面建立链接。

引用此论文的 Spaces 0

尚无 Space 链接此论文。

请在 Space README.md 中引用 arxiv.org/abs/2605.13087 以在此页面建立链接。

Vividh-ASR：面向稳健印度语音识别的复杂度分层基准与优化动态

论文页面 - Vividh-ASR：面向稳健印度语言语音识别的复杂度分层基准与优化动态

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏 1

相似文章

Voice of India：面向印度真实场景的大规模语音识别基准

BlasBench：爱尔兰语语音识别开放基准

@SarvamAI：我们开源两套评估印度语 ASR 的框架，并发布覆盖 22 种语言的完整评测指南。WER（…

基于微积分的端到端自动语音识别词汇量确定框架

MTR-DuplexBench：全双工语音语言模型多轮对话的综合评估基准

提交意见反馈