dots.tts 2B🎙️ 来自RedNote的SOTA文本转语音模型

Reddit r/LocalLLaMA 模型

摘要

RedNote发布了dots.tts,一个2B参数的开源文本转语音模型,支持零样本语音克隆和48kHz合成。

🔗 博客: https://rednote-hilab.github.io/dots.tts-demo/ 🔗 GitHub: https://github.com/rednote-hilab/dots.tts 🔗 技术报告: https://arxiv.org/abs/2608.16894 dots.tts 🎙️ 来自RedNote(小红书)的全新开源TTS ✨ 2B参数(Apache 2.0) ✨ 全连续架构(无编解码令牌) ✨ 48kHz合成 ✨ 零样本语音克隆 ✨ 直接文本转语音(无语音素管道)
查看原文

相似文章

dots.tts 技术报告

Hugging Face Daily Papers

dots.tts 提出了一个拥有 2B 参数的连续自回归文本转语音 (TTS) 模型,基于多语言数据进行训练,在 Seed-TTS-Eval 等基准测试上取得了最先进的性能,并通过 CFG-aware MeanFlow 蒸馏实现了低延迟流式生成。该模型、代码和检查点均以 Apache 2.0 许可证发布。

Aratako/Irodori-TTS-500M-v3

Hugging Face Models Trending

Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。

OpenBMB/VoxCPM

GitHub Trending (daily)

OpenBMB发布VoxCPM2,一个2B参数的无分词器TTS模型,基于超过200万小时的多语言语音数据训练,支持30种语言、语音设计、可控克隆和48kHz输出。