NagaTranslate: 为低资源的那加兰克里奥尔语构建翻译与语音流水线 (Whisper, VITS, LLMs) [P]
摘要
介绍了 NagaTranslate,一个使用 Whisper、VITS 和 LLMs 针对低资源的那加兰克里奥尔语的翻译和语音合成流水线。
暂无内容
相似文章
低资源Tangkhul-英语神经机器翻译
介绍了一个针对严重资源匮乏的Tangkhul-英语语言对的神经机器翻译系统,通过微调ByT5-large和mT5-small模型,在BLEU、chrF++、BERTScore和COMET评分上取得了优异成绩。
基于SpeechLLM的流式语音转文本翻译
提出了一种用于流式语音转文本翻译的SpeechLLM架构,该架构根据音频自适应决定何时输出令牌,实现了1-2秒的延迟,且质量接近非流式基线。
Whisper 介绍
OpenAI 推出 Whisper,这是一个端到端的编码器-解码器 Transformer 模型,在大规模多样化音频数据上进行训练,可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%,并且在语音翻译方面优于有监督基准,尽管未针对特定数据集进行微调。
低资源多模态翻译:将尼泊尔口语词语转化为情感条件手语虚拟形象
本文提出了NEST-V1,一个用于从语音输入生成情感条件尼泊尔手语虚拟形象的概念验证多模态框架,在包含50名说话者600个音频样本的数据集上实现了81.1%的ASR准确率和79.21%的情感识别准确率。
面向东北印度低资源藏缅语Kokborok的高质量机器翻译
研究者开发KokborokMT,一款面向低资源语言Kokborok的神经机器翻译系统,通过在36k句对平行语料上微调NLLB-200,在en→trp方向取得17.30 BLEU分,trp→en方向达38.56。