语音识别中的Convex低资源口音鲁棒语言检测
摘要
本文介绍了CLD,一种基于凸优化的轻量级语言检测头(用于ASR),在不到100个训练样本下实现97-98%的准确率,同时将计算成本降低13倍,解决了5种语言和24种子方言的口音和方言鲁棒性问题。
查看缓存全文
缓存时间: 2026/05/29 23:04
论文页面 - 基于凸优化的低资源口音鲁棒语言检测在语音识别中的应用
来源:https://huggingface.co/papers/2605.23235 🎵 欢迎了解凸语言检测(CLD)!
自动语音识别(ASR)常常在口音和方言上表现不佳。但采集更多数据来重新训练更大模型既缓慢又昂贵。CLD 解决了这个问题——它不是通过网格搜索超参数或收集海量数据集,而是依靠凸优化的优雅几何原理。
🌐🎙️ 与依赖难以应对口音差异的、不可预测的大规模神经网络不同,CLD 引入了一个轻量级、可插拔的检测头,能够提供数学上可证明的间隔稳定性。
我们在 5 种语言、24 种独特子方言(包括极具挑战性的场景,如新加坡英语和区域性普通话)上,以及 Whisper 和 MMS-1B 等基础模型上对 CLD 进行了基准测试。结果:即便训练样本不足 100 个,CLD 也能保持 97-98% 的准确率,减少跨语言解码失败,并将计算成本大幅降低 13 倍。
这一结构性转变本质上是颠覆性的:当前的多语言 ASR 模型严重偏向于标准的高资源语音数据集,导致全球数百万用户面临级联错误。通过将语言识别重塑为一个凸优化问题,并在 JAX 中通过并行化 ADMM 求解,我们不仅推测出决策边界,还能计算出带有保证的、可验证的标签不变性半径。我们认为这是一种高度可扩展、有理论支撑的即插即用模块,旨在为全球语音系统带来公平性、速度和可靠性。
🛠️ 开源代码:https://github.com/pilancilab/CLD
📦 JAX 包:pip install jaxcld(https://pypi.org/project/jaxcld/)
📄 完整论文:https://arxiv.org/abs/2605.23235
相似文章
面向中英文混合语音识别的音频大语言模型直接偏好优化
本文应用直接偏好优化(DPO)来对齐音频大语言模型,以转录中英文混合语音,在分布内实现了高达89.6%的MER降低,在分布外实现了20%的降低。它识别出三种失败模式——语言遗漏、翻译替代转录以及幻觉——并表明基于偏好的对齐能有效激发多语言音频大语言模型的正确混合转写行为。
面向低资源口语方言的线性语义分割
本文引入了一个针对低资源阿拉伯语方言的语义分割基准,并提出了一种模型,该模型在会话式语音上的性能优于标准基线模型。
CRoCoDiL: 用于语言的连续且鲁棒的条件扩散
CRoCoDiL提出了一种用于语言的连续且鲁棒的条件扩散方法,将掩码扩散模型转移到连续语义空间中,相比LLaDA等离散方法,生成质量更优,采样速度快10倍。
LaSR:基于潜在推理的上下文感知语音识别
LaSR提出了一种针对上下文感知语音识别的潜在推理训练范式,围绕声学特征对齐思维链监督,以在无额外延迟的情况下提高术语识别能力,在Fun-Audio-Chat上优于标准微调。
轻量级风格一致性分析:用于多媒体内容审核的大语言模型生成文本鲁棒性检测
提出了 LiSCP,一种轻量级的风格一致性分析方法,旨在鲁棒性地检测大语言模型(LLM)生成的文本内容,重点关注在对抗性操纵下特征的稳定性。在域内和跨域检测中取得了优异的性能,并具有显著的鲁棒性。