面向中国方言的语音驱动端到端语言辨识

arXiv cs.CL 论文

摘要

本文研究了用于中国方言细粒度辨识的语音驱动特征,采用了一种端到端模型,通过卷积神经网络结合基于MFCC的特征与词级嵌入,性能优于文本驱动方法。

arXiv:2606.18584v1 公告类型:新 摘要:在相似语言、方言和变体之间进行语言辨识是一项具有挑战性的自然语言处理任务。传统的文本驱动方法效果不佳。本文探讨了语音驱动特征在中国方言辨识中的有效性。首先,我们系统性地探索了基于MFCC的语音特征在基于CNN的语言辨识中的适用性。然后,我们设计了一个基于HMM-DNN的端到端语音识别模型来预测中文方言词语。我们采用注意力机制来提取与不同中文方言相关的区别性词语。最后,通过CNN,我们将词级嵌入与基于MFCC的特征结合起来。在两个基准中文方言语料库上的评估表明,与最先进的方法相比,所提出的语音驱动方法在细粒度中文方言辨识中具有适当的有效性和优越性。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:45

# 面向汉语方言的语音驱动端到端语言辨别
来源:https://arxiv.org/abs/2606.18584
查看 PDF (https://arxiv.org/pdf/2606.18584)

> 摘要:在相似语言、变体和方言之间进行语言辨别是一项具有挑战性的自然语言处理任务。传统以文本驱动的方法效果不佳。本文探索了语音驱动特征在汉语方言辨别中的有效性。首先,我们系统性地研究了语音驱动的MFCC特征在基于CNN的语言辨别中的适用性。然后,我们设计了一个基于HMM-DNN的端到端语音识别模型来预测汉语方言词汇。我们采用注意力机制提取与不同汉语方言相关的区别性词汇。最后,通过CNN,我们将词级嵌入与基于MFCC的特征相结合。在两个基准汉语方言语料库上的评估表明,与最先进的方法相比,本文提出的语音驱动方法在细粒度汉语方言辨别上具有适用性和有效性。

## 提交历史

Fan Xu \[view email (https://arxiv.org/show-email/7f279a82/2606.18584)\] **\[v1\]** 2026年6月17日星期三 01:23:58 UTC (1,045 KB)

相似文章

Dolphin-CN-Dialect:中文方言识别的重要性

arXiv cs.CL

Dolphin-CN-Dialect 是一款支持流式处理的 ASR 模型,通过基于温度的采样策略和重新设计的词元化方案提升了方言识别能力,在更小的模型规模下实现了具有竞争力的性能。

并列比较加剧语言模型中的方言偏见

arXiv cs.CL

该研究发现,语言模型在并列比较标准美式英语和非裔美国人白话英语时,会表现出更强的方言偏见,即使经过安全微调也是如此。反事实公平微调可以在孤立情况下减少某些偏见,但在对比设置中并不一致。

探索大语言模型在中文抽象语言掌握中的能力边界

arXiv cs.CL

本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。