越南语音中方言变化的语音建模
摘要
本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。
arXiv:2605.24451v1 公告类型: 新
摘要:越南语在北部、中部和南部地区表现出显著的方言语音变化,相同的词汇项可能以截然不同的发音实现。这种变化给自动语音识别(ASR)带来了挑战,并且由于越南语正字法与音系之间的复杂关系,在计算上难以建模。现有方法通常从词汇层面处理方言变异性,假设拼写与发音之间存在方言不变的映射,这限制了它们捕捉系统性语音差异的能力。我们提出了一种方言感知的语音框架,该框架在词汇和解码层面显式建模越南语音系结构和方言变化。该框架引入了一个语音词汇表,将每个音节分解为结构化的语音组件,并将其映射到特定方言的国际音标(IPA)表示,同时结合一个语音结构解码器联合预测这些组件。在唯一的越南语多方言数据集UIT-ViMD上的实验表明,所提出的方法优于多种预训练基线,并且**尤其以更少的参数且无需外部预训练,在不同方言上匹配了最强的预训练模型 wav2ve2-base-vi-250h 的性能**。本文接收后,实验重现代码将公开提供。
查看缓存全文
缓存时间: 2026/05/26 09:03
# 越南语方言变体的语音建模 来源:https://arxiv.org/abs/2605.24451 查看PDF (https://arxiv.org/pdf/2605.24451) > 摘要:越南语在北部、中部和南部地区存在显著的方言语音变体,同一词汇在不同地区可能以截然不同的发音呈现。这种变异性给自动语音识别(ASR)带来了挑战,而且由于越南语正字法与音系之间复杂的对应关系,很难通过计算建模。现有方法通常以词级处理方言变异性,假定拼写与发音之间的映射不受方言影响,这限制了其捕捉系统性语音差异的能力。我们提出了一种方言感知的语音框架,该框架在词汇和解码层面显式建模越南语音系结构及方言变异性。该框架引入了一个语音词汇,将每个音节分解为结构化的语音成分,并将其映射到方言特定的IPA表示,同时结合一个联合预测这些成分的语音结构解码器。在越南语唯一可用的多方言数据集UIT-ViMD上的实验表明,所提方法优于多种预训练基线,**尤其在与最强的预训练模型wav2vec2-base-vi-250h相比时,跨方言性能相当,但使用的参数量显著更少且无需外部预训练**。代码将在本文被接收后公开,以确保实验可复现。 ## 提交历史 来自:Nghia Hieu Nguyen [查看邮件](https://arxiv.org/show-email/2c9a3f87/2605.24451) **[v1]** 2026年5月23日星期六 08:00:26 UTC (917 KB)
相似文章
评估荷兰语音节划分算法并通过深度学习结合语音和正字法信息提高准确性
本文比较了现有的荷兰语音节划分算法,并介绍了一种结合语音和正字法信息的深度学习模型,在单词准确率上取得了小幅提升。
RAMPHO缓冲区的计算机模拟:通过深度神经网络中的语音熵分离信息掩蔽与能量掩蔽
本文介绍了使用来自wav2vec 2.0的语音熵对RAMPHO情节缓冲区进行计算机模拟,以分离多说话人环境中的信息掩蔽和能量掩蔽,揭示了一个认知-声学帕累托优化问题。
转录儿童语音:ASR性能与获取可靠的正字法转写
这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。
发音策略作为声学元音动态变异的一个来源
本研究使用来自36名发音人的超声舌成像数据,表明个体在发硬腭元音/i/时的发音策略系统地影响双元音中的声学共振峰动态,将舌运动模式与共振峰过渡的时间和陡度联系起来。
使用发音音素识别评估语音发音合成
本文提出使用带有发音特征的音素识别来评估语音发音合成,解决了点对点距离等传统指标的局限性。在单说话人RT-MRI数据集上的实验表明,该方法能够捕捉语音细节并改进评估。