标签
本文比较了现有的荷兰语音节划分算法,并介绍了一种结合语音和正字法信息的深度学习模型,在单词准确率上取得了小幅提升。
这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。