speech-translation

#speech-translation

PiDA: 基于语音信息的数据增强方法以实现鲁棒的越南语语音翻译

arXiv cs.CL ↗ · 2026-06-12 缓存

本文提出PiDA，一种基于语音信息的越南语语音翻译数据增强方法，通过使用语音词嵌入生成类似ASR的破坏来提高鲁棒性，在噪声输出上获得高达+2.04 BLEU的提升。

0 人收藏 0 人点赞

#speech-translation

Product Hunt ↗ · 2026-06-05

Krisp 推出专为高精度设计的实时语音到语音翻译 API。

0 人收藏 0 人点赞

#speech-translation

Hugging Face Daily Papers ↗ · 2026-05-29

OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架，能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟，涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白，并为比较异构语音翻译系统提供了一个可复现的基准。

0 人收藏 0 人点赞

#speech-translation

Hugging Face Daily Papers ↗ · 2026-04-19 缓存

MoVE 提出一种 Mixture-of-LoRA-Experts 架构，在仅 30 分钟精选数据下即可在语音到语音翻译中保留 76% 的非语言发声（笑声、哭泣）。

0 人收藏 0 人点赞