PiDA: 基于语音信息的数据增强方法以实现鲁棒的越南语语音翻译
摘要
本文提出PiDA,一种基于语音信息的越南语语音翻译数据增强方法,通过使用语音词嵌入生成类似ASR的破坏来提高鲁棒性,在噪声输出上获得高达+2.04 BLEU的提升。
arXiv:2606.12911v1 公告类型:新
摘要:级联语音翻译(ST)系统在自动语音识别(ASR)输出错误转录时会遭受错误传播。我们首次对越南语ST的ASR错误进行了系统分类,根据语音原因对替代错误进行分类,并使用线性混合效应模型量化其对下游神经机器翻译(NMT)性能的影响。我们确认大多数ASR替代错误源于语音混淆而非随机噪声,并且这些语音错误显著降低了ST质量。基于这一发现,我们提出了基于语音信息的数据增强(PiDA),该方法通过使用语音词嵌入将单词替换为语音相似的替代词来生成类似于ASR的破坏。在PiDA增强版本的FLEURS越南语-英语数据集上进行微调,可以改善有错误的ASR输出的翻译(在标准微调基础上最高提升+2.04 BLEU),同时略微提高干净文本的性能。
查看缓存全文
缓存时间: 2026/06/12 08:51
# PiDA:面向鲁棒越南语语音翻译的语音信息数据增强 来源:https://arxiv.org/abs/2606.12911 查看 PDF (https://arxiv.org/pdf/2606.12911) > 摘要:级联语音翻译(ST)系统在自动语音识别(ASR)输出错误转录时会出现错误传播。我们首次对越南语ST中的ASR错误进行了系统分类,根据语音原因对替换错误进行分类,并使用线性混合效应模型量化了它们对下游神经机器翻译(NMT)性能的影响。我们证实,大多数ASR替换错误源于语音混淆而非随机噪声,并且这些语音错误显著降低了ST质量。受此发现启发,我们提出了语音信息数据增强(PiDA),该方法通过使用语音词嵌入生成语音相似替代词来产生类似ASR的损坏。在PiDA增强版FLEURS越南语-英语上进行微调,可以改善对错误ASR输出的翻译(比标准微调最多提升+2.04 BLEU),同时略微提升干净文本的性能。 ## 提交历史 来自:Giang Son Nguyen [查看邮件](https://arxiv.org/show-email/15cfb280/2606.12911) **\[v1\]**2026年6月11日星期四 05:09:59 UTC(39 KB)
相似文章
越南语音中方言变化的语音建模
本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。
基于迁移学习与数据增强的低资源汉语方言辨识
本文提出了一种新颖的框架(CDDTLDA),利用迁移学习和数据增强技术,在低资源条件下提升汉语方言辨识能力,并在两个基准语料库上取得了最先进的结果。
用于鲁棒代码切换语音识别的基于LLM生成的近失对比训练
提出了一种POI感知的对比训练框架,利用LLM生成的近失假设来增强ASR在代码切换区域的鲁棒性,在两个基准测试上实现了一致的错误率降低。
面向 IWSLT 2026 同声传译任务的 MLLP-VRAIN UPV 系统
本文描述了 MLLP-VRAIN UPV 系统在 IWSLT 2026 同声传译任务中的应用,该系统使用了 Parakeet 和 Qwen 3.5 模型,结合自适应“黑盒”策略和 RAG 机制以获取上下文,实现了显著的质量提升。
面向ASR错误校正的误差感知TF-IDF检索增强生成
本文提出了一种基于误差感知TF-IDF检索增强生成的框架,用于校正自动语音识别错误,在波斯语FLEURS数据集上取得了显著的准确率提升,且推理延迟几乎为零。