越南语音中方言变化的语音建模

arXiv cs.CL 2026/05/26 04:00 论文

vietnamese speech-recognition dialectal-variation phonetic-modeling asr low-resource vietnamese-speech

摘要

本文提出了一种方言感知的语音框架，用于建模越南语自动语音识别（ASR）中的语音变化，将音节分解为结构化组件，并将其映射到特定方言的国际音标（IPA）表示。该方法在UIT-ViMD多方言数据集上，以更少的参数且无需外部预训练，匹配了预训练基线的性能。

arXiv:2605.24451v1 公告类型: 新摘要：越南语在北部、中部和南部地区表现出显著的方言语音变化，相同的词汇项可能以截然不同的发音实现。这种变化给自动语音识别（ASR）带来了挑战，并且由于越南语正字法与音系之间的复杂关系，在计算上难以建模。现有方法通常从词汇层面处理方言变异性，假设拼写与发音之间存在方言不变的映射，这限制了它们捕捉系统性语音差异的能力。我们提出了一种方言感知的语音框架，该框架在词汇和解码层面显式建模越南语音系结构和方言变化。该框架引入了一个语音词汇表，将每个音节分解为结构化的语音组件，并将其映射到特定方言的国际音标（IPA）表示，同时结合一个语音结构解码器联合预测这些组件。在唯一的越南语多方言数据集UIT-ViMD上的实验表明，所提出的方法优于多种预训练基线，并且**尤其以更少的参数且无需外部预训练，在不同方言上匹配了最强的预训练模型 wav2ve2-base-vi-250h 的性能**。本文接收后，实验重现代码将公开提供。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:03

# 越南语方言变体的语音建模
来源：https://arxiv.org/abs/2605.24451
查看PDF (https://arxiv.org/pdf/2605.24451)

> 摘要：越南语在北部、中部和南部地区存在显著的方言语音变体，同一词汇在不同地区可能以截然不同的发音呈现。这种变异性给自动语音识别（ASR）带来了挑战，而且由于越南语正字法与音系之间复杂的对应关系，很难通过计算建模。现有方法通常以词级处理方言变异性，假定拼写与发音之间的映射不受方言影响，这限制了其捕捉系统性语音差异的能力。我们提出了一种方言感知的语音框架，该框架在词汇和解码层面显式建模越南语音系结构及方言变异性。该框架引入了一个语音词汇，将每个音节分解为结构化的语音成分，并将其映射到方言特定的IPA表示，同时结合一个联合预测这些成分的语音结构解码器。在越南语唯一可用的多方言数据集UIT-ViMD上的实验表明，所提方法优于多种预训练基线，**尤其在与最强的预训练模型wav2vec2-base-vi-250h相比时，跨方言性能相当，但使用的参数量显著更少且无需外部预训练**。代码将在本文被接收后公开，以确保实验可复现。

## 提交历史

来自：Nghia Hieu Nguyen [查看邮件](https://arxiv.org/show-email/2c9a3f87/2605.24451) **[v1]** 2026年5月23日星期六 08:00:26 UTC (917 KB)

越南语音中方言变化的语音建模

相似文章

评估荷兰语音节划分算法并通过深度学习结合语音和正字法信息提高准确性

RAMPHO缓冲区的计算机模拟：通过深度神经网络中的语音熵分离信息掩蔽与能量掩蔽

转录儿童语音：ASR性能与获取可靠的正字法转写

发音策略作为声学元音动态变异的一个来源

使用发音音素识别评估语音发音合成

提交意见反馈