面向中国方言的语音驱动端到端语言辨识

arXiv cs.CL 2026/06/18 04:00 论文

speech-driven end-to-end language-discrimination chinese-dialects mfcc cnn hmm-dnn

摘要

本文研究了用于中国方言细粒度辨识的语音驱动特征，采用了一种端到端模型，通过卷积神经网络结合基于MFCC的特征与词级嵌入，性能优于文本驱动方法。

arXiv:2606.18584v1 公告类型：新摘要：在相似语言、方言和变体之间进行语言辨识是一项具有挑战性的自然语言处理任务。传统的文本驱动方法效果不佳。本文探讨了语音驱动特征在中国方言辨识中的有效性。首先，我们系统性地探索了基于MFCC的语音特征在基于CNN的语言辨识中的适用性。然后，我们设计了一个基于HMM-DNN的端到端语音识别模型来预测中文方言词语。我们采用注意力机制来提取与不同中文方言相关的区别性词语。最后，通过CNN，我们将词级嵌入与基于MFCC的特征结合起来。在两个基准中文方言语料库上的评估表明，与最先进的方法相比，所提出的语音驱动方法在细粒度中文方言辨识中具有适当的有效性和优越性。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:45

# 面向汉语方言的语音驱动端到端语言辨别
来源：https://arxiv.org/abs/2606.18584
查看 PDF (https://arxiv.org/pdf/2606.18584)

> 摘要：在相似语言、变体和方言之间进行语言辨别是一项具有挑战性的自然语言处理任务。传统以文本驱动的方法效果不佳。本文探索了语音驱动特征在汉语方言辨别中的有效性。首先，我们系统性地研究了语音驱动的MFCC特征在基于CNN的语言辨别中的适用性。然后，我们设计了一个基于HMM-DNN的端到端语音识别模型来预测汉语方言词汇。我们采用注意力机制提取与不同汉语方言相关的区别性词汇。最后，通过CNN，我们将词级嵌入与基于MFCC的特征相结合。在两个基准汉语方言语料库上的评估表明，与最先进的方法相比，本文提出的语音驱动方法在细粒度汉语方言辨别上具有适用性和有效性。

## 提交历史

Fan Xu \[view email (https://arxiv.org/show-email/7f279a82/2606.18584)\] **\[v1\]** 2026年6月17日星期三 01:23:58 UTC (1,045 KB)

面向中国方言的语音驱动端到端语言辨识

相似文章

基于迁移学习与数据增强的低资源汉语方言辨识

Dolphin-CN-Dialect：中文方言识别的重要性

基于跨语言迁移学习的多语言语音阿尔茨海默病检测方法

并列比较加剧语言模型中的方言偏见

探索大语言模型在中文抽象语言掌握中的能力边界

提交意见反馈