评估荷兰语音节划分算法并通过深度学习结合语音和正字法信息提高准确性

arXiv cs.CL 论文

摘要

本文比较了现有的荷兰语音节划分算法,并介绍了一种结合语音和正字法信息的深度学习模型,在单词准确率上取得了小幅提升。

arXiv:2605.28834v1 公告类型:新 摘要:音节划分是指将单词划分为音节的任务。由于规则众多且存在许多例外,训练一个高准确率的音节划分算法仍具挑战。过去几十年间,荷兰语音节划分已有多种算法被提出,但尚未进行全面的比较评估。此外,深度学习近年来在自然语言处理领域广受欢迎,但目前尚无基于深度学习的现代框架用于荷兰语正字法音节划分。最后,语音和正字法音节划分算法此前被分别研究,而未加以结合。本研究的目标有两个:(a) 评估现有荷兰语音节划分算法的性能;(b) 探究将语音和正字法信息结合到单一模型中是否能提升音节划分效果。为比较算法性能,将四种算法(Brandt Corstius、Liang、Trogkanis-Elkan (CRF) 以及新构思的深度学习模型)应用于三个不同数据集(词典词、借词、伪词)。各算法在不同数据集上表现各异,数据驱动算法在除一种情况外均优于基于知识的算法。新开发的深度学习方法相比文献中最佳结果取得了性能提升(单词准确率99.65%,提升0.14%)。对添加语音信息提升音节划分效果的词进行分析表明,这些词的正字法歧义可通过发音信息解决。未来研究可探讨语音信息在其他正字法处理领域的应用。此外,新开发的深度学习框架也可应用于荷兰语以外的其他语言。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:12

# 评估荷兰语音节划分算法并通过深度学习结合音系和正字法信息提高准确率

来源:https://arxiv.org/html/2605.28834  
Gus Lathouwers∗\emailguslathouwers@gmail\.com Wieke Harmsen∗\emailwieke\.harmsen@ru\.nl Catia Cucchiarini∗\emailcatia\.cucchiarini@ru\.nl Helmer Strik∗\emailhelmer\.strik@ru\.nl

###### 摘要

音节划分是指将单词划分为音节的任务。由于存在大量规则和例外,训练一种算法以高准确率进行音节划分仍然是一项挑战。在过去几十年中,针对荷兰语音节划分提出了不同的算法,但尚未进行全面的比较评估。此外,深度学习近年来在自然语言处理领域广受欢迎,但尚未有基于现代深度学习的框架用于荷兰语正字法音节划分。最后,音系和正字法音节划分算法分别被研究,但尚未结合研究。当前研究有两个目标:(a) 评估现有荷兰语音节划分算法的性能,以及 (b) 研究将音系和正字法信息结合到一个单一模型中是否能提高音节划分性能。为了比较算法的性能,将四种算法(Brandt Corstius、Liang、Trogkanis-Elkan (CRF) 以及一个新构思的深度学习模型)应用于三个不同的数据集(词典词、借词、伪词)。这些算法在不同数据集上表现出不同的性能,基于数据的算法在除一种条件外的所有情况下都优于基于知识的算法。新开发的深度学习方法相比文献中最佳结果(词准确率99.65%,提高了0.14%)实现了更高的性能。对添加音系信息提高了音节划分性能的词汇的分析表明,这些词汇的正字法歧义可以通过发音信息来解决。未来研究可以考察音系信息在其他正字法处理中的益处。此外,新开发的深度学习框架可以应用于除荷兰语以外的其他语言。

## 1 引言

音节划分是指将单词划分为音节的任务。由于划分音节的规则繁多且存在大量例外,通过算法自动进行音节划分仍然是一项复杂的挑战。例如,韦氏词典列出了英语中将单词划分为音节的二十多条规则,每条规则都有许多特例和例外(?)。对于荷兰语,音节边界可能由不同的、有时相互竞争的原则决定,例如响度原则、最大音首原则以及前缀和后缀的优先规则(?,?)。

音节划分不仅因其理论复杂性而受到关注,而且在底层支持多种自然语言处理技术方面也发挥着重要作用,例如文本转语音(?,?)和语法处理应用(?,?)。音节划分也可用于选择具有特定音节属性(如音节长度或特定音节结构)的文本(?)。音节分析还用于文档分析,作为文本复杂度的基准(?,?)或作为通过识别单词最后一个音节进行韵律分析的工具(?)。

尽管具有相关性,但对荷兰语音节划分算法的研究已经过时,最近一次贡献是在?年。现有研究通常侧重于开发新方法,而不是对现有方法进行基准测试。近十年来在自然语言处理领域广泛流行的新型深度学习方法已被用于为某些语言创建新的深度学习音节划分解决方案(?),但尚未用于荷兰语。深度学习方法的优势之一是允许整合不同来源的信息,例如音系和正字法数据(?),这有望帮助提高音节划分的准确性。

在本文中,我们通过将现有荷兰语音节划分算法应用于不同数据集来对其进行评估。此外,我们研究了通过使用新型深度学习技术结合音系和正字法信息是否能带来更好的音节划分性能。

### 1.1 荷兰语音节划分算法

在本节中,我们简要回顾多年来为音节划分开发的算法。最初的工作由?采用基于知识的方法进行单词音节划分,即根据 Brandt Corstius 手动编码的明确语法规则进行划分。二十年后,?通过加入词汇库等改进扩展了 Brandt Corstius 的工作,从而获得了更一致的结果。同时,与句子语境和语义变异相关的歧义挑战促使算法转向概率和机器学习方法。具体来说,?引入了一种不同的基于模式的单词断词方法,该方法因与语言无关而广受欢迎,即不依赖于特定语言的拼写规则,因此可应用于任何语言。?的工作进一步探索了基于模式的处理及其在荷兰语中的应用。

需要澄清的一个问题是“断词”与“音节划分”这两个术语的使用。尽管在文献中有时互换使用,但它们指向本质上不同的处理方式:断词根据拼写和语法原则(对于荷兰语,遵循《绿色小册子》规则)进行单词划分(?),而音节划分则遵循发音惯例。出于语言处理中文本分析的目的,通常更倾向于音节划分,因为它与口语中的音节划分一致,进而可用于依赖单词语音结构的应用。参见表1(https://arxiv.org/html/2605.28834#S1.T1)中断词和音节划分产生不同划分模式的单词示例。

虽然 Brandt Corstius、Liang 和 Boot 等作者最初专注于更传统的基于模式或知识的系统,后续发展则转向了新颖的机器学习技术。第一个应用于荷兰语的神经网络实例由?提出,他们使用反向传播设置进行文本音节划分。之后,?采用了一种不同的有限状态方法进行音节边界预测,该方法依赖于自动规则抽象。从另一个机器学习角度出发,?将序列预测与支持向量机相结合,在包括荷兰语和英语在内的多种语言上显示出良好结果。最近一种应用于荷兰语音节划分的方法由?开发,他们使用基于条件随机场的方法对荷兰语和英语进行音节划分,取得了与?相当的结果。

### 1.2 音节划分算法的比较

由于过去几十年内自然语言处理领域开发了大量新的机器学习方法,人们已经注意到比较现有算法的重要性,而不仅仅是引入新算法(?)。在不与现有模型进行对比的情况下引入新模型的弊端包括:在定制数据集上过度优化,以及选择性使用可能使算法呈现更有利结果的指标(?)。基于这些原因,建立跨算法的性能基线(?,?)并为未来测试创建包含多个数据集的数据库(?)可以大大加深对算法性能趋势的理解。此类系统可能有助于减少报告偏差,并确保在经过仔细验证的数据集上进行一致的测试实践(?)。

Table 1: 具有不同音节划分和断词划分的荷兰语单词示例。

相似文章

转录儿童语音:ASR性能与获取可靠的正字法转写

arXiv cs.CL

这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。

越南语音中方言变化的语音建模

arXiv cs.CL

本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。

使用发音音素识别评估语音发音合成

arXiv cs.CL

本文提出使用带有发音特征的音素识别来评估语音发音合成,解决了点对点距离等传统指标的局限性。在单说话人RT-MRI数据集上的实验表明,该方法能够捕捉语音细节并改进评估。