NagaTranslate: 为低资源的那加兰克里奥尔语构建翻译与语音流水线 (Whisper, VITS, LLMs) [P]

Reddit r/MachineLearning 论文

摘要

介绍了 NagaTranslate,一个使用 Whisper、VITS 和 LLMs 针对低资源的那加兰克里奥尔语的翻译和语音合成流水线。

暂无内容
查看原文

相似文章

低资源Tangkhul-英语神经机器翻译

arXiv cs.CL

介绍了一个针对严重资源匮乏的Tangkhul-英语语言对的神经机器翻译系统,通过微调ByT5-large和mT5-small模型,在BLEU、chrF++、BERTScore和COMET评分上取得了优异成绩。

基于SpeechLLM的流式语音转文本翻译

arXiv cs.CL

提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。

Whisper 介绍

OpenAI Blog

OpenAI 推出 Whisper,这是一个端到端的编码器-解码器 Transformer 模型,在大规模多样化音频数据上进行训练,可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%,并且在语音翻译方面优于有监督基准,尽管未针对特定数据集进行微调。