Vividh-ASR:面向稳健印度语音识别的复杂度分层基准与优化动态
摘要
介绍了用于印地语和马拉雅拉姆语ASR的复杂度分层基准Vividh-ASR,指出了微调中的录音室偏差,并提出了R-MFT以高效提升自发言语性能。
查看缓存全文
缓存时间: 2026/05/14 08:17
论文页面 - Vividh-ASR:面向稳健印度语言语音识别的复杂度分层基准与优化动态
来源:https://huggingface.co/papers/2605.13087
摘要
研究发现,多语言 ASR 微调中存在录音室偏差(studio-bias),并提出了 R-MFT 方法,以在保持效率的同时改善自发语音性能。
针对低资源语言微调诸如 Whisper 的多语言 ASR 模型,通常能提升朗读语音表现,但会降低自发音频性能,我们将此现象称为录音室偏差(studio-bias)。为诊断这一不匹配问题,我们引入了 Vividh-ASR,这是一个针对印地语和马拉雅拉姆语的复杂度分层基准,涵盖四个层级:录音室、广播、自发及合成噪声。通过对学习率时机和课程顺序的受控研究,我们发现早期的大参数更新可将全局词错误率(WER)绝对降低 12 个百分点,而“难到易”的课程顺序则为自发语音带来额外提升。这些发现催生了反向多阶段微调(R-MFT)训练方案,使得一个参数高效的 244M Whisper 模型能够匹配甚至超越传统微调的 769M 模型。通过 CKA 和 SVD 的表征分析揭示,有效的调度策略将适应集中在解码器上,从而保留了预训练编码器的声学几何结构。我们已发布该基准和模型。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13087) 查看 PDF (https://arxiv.org/pdf/2605.13087) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13087)
在您的 agent 中获取此论文:
hf papers read 2605.13087
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
尚无模型链接此论文。
请在模型 README.md 中引用 arxiv.org/abs/2605.13087 以在此页面建立链接。
引用此论文的数据集 0
尚无数据集链接此论文。
请在数据集 README.md 中引用 arxiv.org/abs/2605.13087 以在此页面建立链接。
引用此论文的 Spaces 0
尚无 Space 链接此论文。
请在 Space README.md 中引用 arxiv.org/abs/2605.13087 以在此页面建立链接。
包含此论文的收藏 1
相似文章
Voice of India:面向印度真实场景的大规模语音识别基准
研究者发布 Voice of India,一个包含 536 小时、覆盖 15 种印度语言和 139 个区域集群的即兴电话对话闭源基准,揭示地理与人口统计学层面的 ASR 性能差异。
BlasBench:爱尔兰语语音识别开放基准
BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。
@SarvamAI:我们开源两套评估印度语 ASR 的框架,并发布覆盖 22 种语言的完整评测指南。WER(…
SarvamAI 发布开源评估框架与指南,专为 22 种印度语言设计,解决传统 WER/CER 指标在该场景下的局限。
基于微积分的端到端自动语音识别词汇量确定框架
本文提出了一种基于微积分的框架,利用一阶和二阶导数检验来估计端到端自动语音识别系统的最佳词汇量超参数,并在Librispeech语料库上提升了性能。
MTR-DuplexBench:全双工语音语言模型多轮对话的综合评估基准
MTR-DuplexBench为全双工语音语言模型在多轮对话中的评估引入了一个综合基准,解决轮转边界模糊和上下文不一致等挑战,同时评估对话特征、对话质量、指令遵循和安全性。