标签
本文提出PiDA,一种基于语音信息的越南语语音翻译数据增强方法,通过使用语音词嵌入生成类似ASR的破坏来提高鲁棒性,在噪声输出上获得高达+2.04 BLEU的提升。
OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。
MoVE 提出一种 Mixture-of-LoRA-Experts 架构,在仅 30 分钟精选数据下即可在语音到语音翻译中保留 76% 的非语言发声(笑声、哭泣)。