语音识别中的Convex低资源口音鲁棒语言检测

Hugging Face Daily Papers 论文

摘要

本文介绍了CLD,一种基于凸优化的轻量级语言检测头(用于ASR),在不到100个训练样本下实现97-98%的准确率,同时将计算成本降低13倍,解决了5种语言和24种子方言的口音和方言鲁棒性问题。

全球化和多元文化持续催生越来越多样化的语音变体。然而,当前的语音对话系统在代表性不足的方言和口音上经常失败,常常错误识别输入语言,导致下游对话任务出现级联故障。在低资源约束下解决这种方言差异仍然是一个开放挑战,因为标准微调计算成本高昂且容易在高维语音数据上过拟合。我们提出了Convex Language Detection (CLD),一种新颖的框架,将基于理论的凸优化技术集成到语音对话系统流程中。我们的方法通过JAX中的多GPU交替方向乘子法(ADMM)高效实现,从而提供全局最优性保证和多项式时间内的快速训练。理论上,我们证明了我们的凸目标诱导出有保证的边界稳定性,并提供了针对特征扰动的保证。实验上,我们展示了样本效率和对输入方言变化的鲁棒性,在具有挑战性的低资源场景下达到97-98%的准确率。我们的开源包可在 https://pypi.org/project/jaxcld/ 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/29 23:04

论文页面 - 基于凸优化的低资源口音鲁棒语言检测在语音识别中的应用

来源:https://huggingface.co/papers/2605.23235 🎵 欢迎了解凸语言检测(CLD)!

自动语音识别(ASR)常常在口音和方言上表现不佳。但采集更多数据来重新训练更大模型既缓慢又昂贵。CLD 解决了这个问题——它不是通过网格搜索超参数或收集海量数据集,而是依靠凸优化的优雅几何原理。

🌐🎙️ 与依赖难以应对口音差异的、不可预测的大规模神经网络不同,CLD 引入了一个轻量级、可插拔的检测头,能够提供数学上可证明的间隔稳定性。

我们在 5 种语言、24 种独特子方言(包括极具挑战性的场景,如新加坡英语和区域性普通话)上,以及 Whisper 和 MMS-1B 等基础模型上对 CLD 进行了基准测试。结果:即便训练样本不足 100 个,CLD 也能保持 97-98% 的准确率,减少跨语言解码失败,并将计算成本大幅降低 13 倍。

这一结构性转变本质上是颠覆性的:当前的多语言 ASR 模型严重偏向于标准的高资源语音数据集,导致全球数百万用户面临级联错误。通过将语言识别重塑为一个凸优化问题,并在 JAX 中通过并行化 ADMM 求解,我们不仅推测出决策边界,还能计算出带有保证的、可验证的标签不变性半径。我们认为这是一种高度可扩展、有理论支撑的即插即用模块,旨在为全球语音系统带来公平性、速度和可靠性。

🛠️ 开源代码:https://github.com/pilancilab/CLD
📦 JAX 包:pip install jaxcld(https://pypi.org/project/jaxcld/)
📄 完整论文:https://arxiv.org/abs/2605.23235

相似文章

面向中英文混合语音识别的音频大语言模型直接偏好优化

arXiv cs.CL

本文应用直接偏好优化(DPO)来对齐音频大语言模型,以转录中英文混合语音,在分布内实现了高达89.6%的MER降低,在分布外实现了20%的降低。它识别出三种失败模式——语言遗漏、翻译替代转录以及幻觉——并表明基于偏好的对齐能有效激发多语言音频大语言模型的正确混合转写行为。

LaSR:基于潜在推理的上下文感知语音识别

arXiv cs.CL

LaSR提出了一种针对上下文感知语音识别的潜在推理训练范式,围绕声学特征对齐思维链监督,以在无额外延迟的情况下提高术语识别能力,在Fun-Audio-Chat上优于标准微调。