PiDA: 基于语音信息的数据增强方法以实现鲁棒的越南语语音翻译

arXiv cs.CL 论文

摘要

本文提出PiDA,一种基于语音信息的越南语语音翻译数据增强方法,通过使用语音词嵌入生成类似ASR的破坏来提高鲁棒性,在噪声输出上获得高达+2.04 BLEU的提升。

arXiv:2606.12911v1 公告类型:新 摘要:级联语音翻译(ST)系统在自动语音识别(ASR)输出错误转录时会遭受错误传播。我们首次对越南语ST的ASR错误进行了系统分类,根据语音原因对替代错误进行分类,并使用线性混合效应模型量化其对下游神经机器翻译(NMT)性能的影响。我们确认大多数ASR替代错误源于语音混淆而非随机噪声,并且这些语音错误显著降低了ST质量。基于这一发现,我们提出了基于语音信息的数据增强(PiDA),该方法通过使用语音词嵌入将单词替换为语音相似的替代词来生成类似于ASR的破坏。在PiDA增强版本的FLEURS越南语-英语数据集上进行微调,可以改善有错误的ASR输出的翻译(在标准微调基础上最高提升+2.04 BLEU),同时略微提高干净文本的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:51

# PiDA:面向鲁棒越南语语音翻译的语音信息数据增强
来源:https://arxiv.org/abs/2606.12911
查看 PDF (https://arxiv.org/pdf/2606.12911)

> 摘要:级联语音翻译(ST)系统在自动语音识别(ASR)输出错误转录时会出现错误传播。我们首次对越南语ST中的ASR错误进行了系统分类,根据语音原因对替换错误进行分类,并使用线性混合效应模型量化了它们对下游神经机器翻译(NMT)性能的影响。我们证实,大多数ASR替换错误源于语音混淆而非随机噪声,并且这些语音错误显著降低了ST质量。受此发现启发,我们提出了语音信息数据增强(PiDA),该方法通过使用语音词嵌入生成语音相似替代词来产生类似ASR的损坏。在PiDA增强版FLEURS越南语-英语上进行微调,可以改善对错误ASR输出的翻译(比标准微调最多提升+2.04 BLEU),同时略微提升干净文本的性能。

## 提交历史

来自:Giang Son Nguyen [查看邮件](https://arxiv.org/show-email/15cfb280/2606.12911) **\[v1\]**2026年6月11日星期四 05:09:59 UTC(39 KB)

相似文章

越南语音中方言变化的语音建模

arXiv cs.CL

本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。

面向 IWSLT 2026 同声传译任务的 MLLP-VRAIN UPV 系统

arXiv cs.CL

本文描述了 MLLP-VRAIN UPV 系统在 IWSLT 2026 同声传译任务中的应用,该系统使用了 Parakeet 和 Qwen 3.5 模型,结合自适应“黑盒”策略和 RAG 机制以获取上下文,实现了显著的质量提升。