Vividh-ASR:面向稳健印度语音识别的复杂度分层基准与优化动态

Hugging Face Daily Papers 论文

摘要

介绍了用于印地语和马拉雅拉姆语ASR的复杂度分层基准Vividh-ASR,指出了微调中的录音室偏差,并提出了R-MFT以高效提升自发言语性能。

微调多语言ASR模型(如Whisper)用于低资源语言时,通常能改善朗读语音,但会降低自发言语性能,我们将这一现象称为录音室偏差。为诊断此不匹配,我们引入了Vividh-ASR,这是一个针对印地语和马拉雅拉姆语的复杂度分层基准,涵盖四个层级:录音室、广播、自发和合成噪声。通过控制学习率时机和课程排序的研究,我们发现早期的大参数更新可使全局词错误率(WER)降低12个绝对百分点,而难到易的课程排序进一步提升了自发言语的性能。这些发现启发了反向多阶段微调(R-MFT),这是一种训练方案,使参数高效的244M Whisper模型能够匹配甚至超越传统微调的769M对应模型。通过CKA和SVD的表征分析揭示了有效的调度方案将适应集中在解码器,保留了预训练编码器的声学几何。我们发布了该基准和模型。
查看原文
查看缓存全文

缓存时间: 2026/05/14 08:17

论文页面 - Vividh-ASR:面向稳健印度语言语音识别的复杂度分层基准与优化动态

来源:https://huggingface.co/papers/2605.13087

摘要

研究发现,多语言 ASR 微调中存在录音室偏差(studio-bias),并提出了 R-MFT 方法,以在保持效率的同时改善自发语音性能。

针对低资源语言微调诸如 Whisper 的多语言 ASR 模型,通常能提升朗读语音表现,但会降低自发音频性能,我们将此现象称为录音室偏差(studio-bias)。为诊断这一不匹配问题,我们引入了 Vividh-ASR,这是一个针对印地语和马拉雅拉姆语的复杂度分层基准,涵盖四个层级:录音室、广播、自发及合成噪声。通过对学习率时机和课程顺序的受控研究,我们发现早期的大参数更新可将全局词错误率(WER)绝对降低 12 个百分点,而“难到易”的课程顺序则为自发语音带来额外提升。这些发现催生了反向多阶段微调(R-MFT)训练方案,使得一个参数高效的 244M Whisper 模型能够匹配甚至超越传统微调的 769M 模型。通过 CKA 和 SVD 的表征分析揭示,有效的调度策略将适应集中在解码器上,从而保留了预训练编码器的声学几何结构。我们已发布该基准和模型。

查看 arXiv 页面 (https://arxiv.org/abs/2605.13087) 查看 PDF (https://arxiv.org/pdf/2605.13087) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13087)

在您的 agent 中获取此论文:

hf papers read 2605.13087

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

尚无模型链接此论文。

请在模型 README.md 中引用 arxiv.org/abs/2605.13087 以在此页面建立链接。

引用此论文的数据集 0

尚无数据集链接此论文。

请在数据集 README.md 中引用 arxiv.org/abs/2605.13087 以在此页面建立链接。

引用此论文的 Spaces 0

尚无 Space 链接此论文。

请在 Space README.md 中引用 arxiv.org/abs/2605.13087 以在此页面建立链接。

包含此论文的收藏 1

相似文章

BlasBench:爱尔兰语语音识别开放基准

arXiv cs.CL

BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。