PiDA: 基于语音信息的数据增强方法以实现鲁棒的越南语语音翻译

arXiv cs.CL 2026/06/12 04:00 论文

vietnamese speech-translation data-augmentation asr-errors nmt phonetics robustness

摘要

本文提出PiDA，一种基于语音信息的越南语语音翻译数据增强方法，通过使用语音词嵌入生成类似ASR的破坏来提高鲁棒性，在噪声输出上获得高达+2.04 BLEU的提升。

arXiv:2606.12911v1 公告类型：新摘要：级联语音翻译（ST）系统在自动语音识别（ASR）输出错误转录时会遭受错误传播。我们首次对越南语ST的ASR错误进行了系统分类，根据语音原因对替代错误进行分类，并使用线性混合效应模型量化其对下游神经机器翻译（NMT）性能的影响。我们确认大多数ASR替代错误源于语音混淆而非随机噪声，并且这些语音错误显著降低了ST质量。基于这一发现，我们提出了基于语音信息的数据增强（PiDA），该方法通过使用语音词嵌入将单词替换为语音相似的替代词来生成类似于ASR的破坏。在PiDA增强版本的FLEURS越南语-英语数据集上进行微调，可以改善有错误的ASR输出的翻译（在标准微调基础上最高提升+2.04 BLEU），同时略微提高干净文本的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:51

# PiDA：面向鲁棒越南语语音翻译的语音信息数据增强
来源：https://arxiv.org/abs/2606.12911
查看 PDF (https://arxiv.org/pdf/2606.12911)

> 摘要：级联语音翻译（ST）系统在自动语音识别（ASR）输出错误转录时会出现错误传播。我们首次对越南语ST中的ASR错误进行了系统分类，根据语音原因对替换错误进行分类，并使用线性混合效应模型量化了它们对下游神经机器翻译（NMT）性能的影响。我们证实，大多数ASR替换错误源于语音混淆而非随机噪声，并且这些语音错误显著降低了ST质量。受此发现启发，我们提出了语音信息数据增强（PiDA），该方法通过使用语音词嵌入生成语音相似替代词来产生类似ASR的损坏。在PiDA增强版FLEURS越南语-英语上进行微调，可以改善对错误ASR输出的翻译（比标准微调最多提升+2.04 BLEU），同时略微提升干净文本的性能。

## 提交历史

来自：Giang Son Nguyen [查看邮件](https://arxiv.org/show-email/15cfb280/2606.12911) **\[v1\]**2026年6月11日星期四 05:09:59 UTC（39 KB）

PiDA: 基于语音信息的数据增强方法以实现鲁棒的越南语语音翻译

相似文章

越南语音中方言变化的语音建模

基于迁移学习与数据增强的低资源汉语方言辨识

用于鲁棒代码切换语音识别的基于LLM生成的近失对比训练

面向 IWSLT 2026 同声传译任务的 MLLP-VRAIN UPV 系统

面向ASR错误校正的误差感知TF-IDF检索增强生成

提交意见反馈