语音识别中的Convex低资源口音鲁棒语言检测

Hugging Face Daily Papers 2026/05/22 00:00 论文

speech-recognition low-resource accent-robust convex-optimization language-detection asr

摘要

本文介绍了CLD，一种基于凸优化的轻量级语言检测头（用于ASR），在不到100个训练样本下实现97-98%的准确率，同时将计算成本降低13倍，解决了5种语言和24种子方言的口音和方言鲁棒性问题。

全球化和多元文化持续催生越来越多样化的语音变体。然而，当前的语音对话系统在代表性不足的方言和口音上经常失败，常常错误识别输入语言，导致下游对话任务出现级联故障。在低资源约束下解决这种方言差异仍然是一个开放挑战，因为标准微调计算成本高昂且容易在高维语音数据上过拟合。我们提出了Convex Language Detection (CLD)，一种新颖的框架，将基于理论的凸优化技术集成到语音对话系统流程中。我们的方法通过JAX中的多GPU交替方向乘子法(ADMM)高效实现，从而提供全局最优性保证和多项式时间内的快速训练。理论上，我们证明了我们的凸目标诱导出有保证的边界稳定性，并提供了针对特征扰动的保证。实验上，我们展示了样本效率和对输入方言变化的鲁棒性，在具有挑战性的低资源场景下达到97-98%的准确率。我们的开源包可在 https://pypi.org/project/jaxcld/ 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/29 23:04

论文页面 - 基于凸优化的低资源口音鲁棒语言检测在语音识别中的应用

来源：https://huggingface.co/papers/2605.23235 🎵 欢迎了解凸语言检测（CLD）！

自动语音识别（ASR）常常在口音和方言上表现不佳。但采集更多数据来重新训练更大模型既缓慢又昂贵。CLD 解决了这个问题——它不是通过网格搜索超参数或收集海量数据集，而是依靠凸优化的优雅几何原理。

🌐🎙️ 与依赖难以应对口音差异的、不可预测的大规模神经网络不同，CLD 引入了一个轻量级、可插拔的检测头，能够提供数学上可证明的间隔稳定性。

我们在 5 种语言、24 种独特子方言（包括极具挑战性的场景，如新加坡英语和区域性普通话）上，以及 Whisper 和 MMS-1B 等基础模型上对 CLD 进行了基准测试。结果：即便训练样本不足 100 个，CLD 也能保持 97-98% 的准确率，减少跨语言解码失败，并将计算成本大幅降低 13 倍。

这一结构性转变本质上是颠覆性的：当前的多语言 ASR 模型严重偏向于标准的高资源语音数据集，导致全球数百万用户面临级联错误。通过将语言识别重塑为一个凸优化问题，并在 JAX 中通过并行化 ADMM 求解，我们不仅推测出决策边界，还能计算出带有保证的、可验证的标签不变性半径。我们认为这是一种高度可扩展、有理论支撑的即插即用模块，旨在为全球语音系统带来公平性、速度和可靠性。

🛠️ 开源代码：https://github.com/pilancilab/CLD
📦 JAX 包：pip install jaxcld（https://pypi.org/project/jaxcld/）
📄 完整论文：https://arxiv.org/abs/2605.23235

语音识别中的Convex低资源口音鲁棒语言检测

论文页面 - 基于凸优化的低资源口音鲁棒语言检测在语音识别中的应用

相似文章

面向中英文混合语音识别的音频大语言模型直接偏好优化

面向低资源口语方言的线性语义分割

CRoCoDiL: 用于语言的连续且鲁棒的条件扩散

LaSR：基于潜在推理的上下文感知语音识别

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

提交意见反馈