dots.tts 2B🎙️ 来自RedNote的SOTA文本转语音模型
摘要
RedNote发布了dots.tts,一个2B参数的开源文本转语音模型,支持零样本语音克隆和48kHz合成。
🔗 博客: https://rednote-hilab.github.io/dots.tts-demo/ 🔗 GitHub: https://github.com/rednote-hilab/dots.tts 🔗 技术报告: https://arxiv.org/abs/2608.16894 dots.tts 🎙️ 来自RedNote(小红书)的全新开源TTS ✨ 2B参数(Apache 2.0) ✨ 全连续架构(无编解码令牌) ✨ 48kHz合成 ✨ 零样本语音克隆 ✨ 直接文本转语音(无语音素管道)
相似文章
@AdinaYakup: dots.tts 来自小红书的新TTS模型 2B参数 - Apache 2.0 完全连续架构(无编解码器令牌)48kHz合成…
Dots.tts 是来自小红书(RedNote)的新TTS模型,拥有2B参数,遵循Apache 2.0许可,采用完全连续架构(无编解码器令牌),支持48kHz合成和零样本语音克隆。
dots.tts 技术报告
dots.tts 提出了一个拥有 2B 参数的连续自回归文本转语音 (TTS) 模型,基于多语言数据进行训练,在 Seed-TTS-Eval 等基准测试上取得了最先进的性能,并通过 CFG-aware MeanFlow 蒸馏实现了低延迟流式生成。该模型、代码和检查点均以 Apache 2.0 许可证发布。
Aratako/Irodori-TTS-500M-v3
Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。
OpenBMB/VoxCPM
OpenBMB发布VoxCPM2,一个2B参数的无分词器TTS模型,基于超过200万小时的多语言语音数据训练,支持30种语言、语音设计、可控克隆和48kHz输出。
@akshay_pachaar: 这个TTS模型生成语音的速度比人耳听到快167倍。Supertonic 是一款通过ONNX实现跨平台推理的设备端TTS引擎…
Supertonic 是一款新的开源TTS引擎,通过ONNX在设备上运行,支持31种语言,在速度上超越ElevenLabs,即使在无GPU的树莓派上也能运行。