dots.tts 2B🎙️ 来自RedNote的SOTA文本转语音模型

Reddit r/LocalLLaMA 2026/06/05 20:21 模型

tts text-to-speech open-source zero-shot voice-cloning apache-2.0 rednote

摘要

RedNote发布了dots.tts，一个2B参数的开源文本转语音模型，支持零样本语音克隆和48kHz合成。

🔗 博客: https://rednote-hilab.github.io/dots.tts-demo/ 🔗 GitHub: https://github.com/rednote-hilab/dots.tts 🔗 技术报告: https://arxiv.org/abs/2608.16894 dots.tts 🎙️ 来自RedNote（小红书）的全新开源TTS ✨ 2B参数（Apache 2.0） ✨ 全连续架构（无编解码令牌） ✨ 48kHz合成 ✨ 零样本语音克隆 ✨ 直接文本转语音（无语音素管道）

查看原文

相似文章

@AdinaYakup: dots.tts 来自小红书的新TTS模型 2B参数 - Apache 2.0 完全连续架构（无编解码器令牌）48kHz合成…

X AI KOLs Following

Dots.tts 是来自小红书（RedNote）的新TTS模型，拥有2B参数，遵循Apache 2.0许可，采用完全连续架构（无编解码器令牌），支持48kHz合成和零样本语音克隆。

dots.tts 技术报告

Hugging Face Daily Papers

dots.tts 提出了一个拥有 2B 参数的连续自回归文本转语音 (TTS) 模型，基于多语言数据进行训练，在 Seed-TTS-Eval 等基准测试上取得了最先进的性能，并通过 CFG-aware MeanFlow 蒸馏实现了低延迟流式生成。该模型、代码和检查点均以 Apache 2.0 许可证发布。

Aratako/Irodori-TTS-500M-v3

Hugging Face Models Trending

Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型，支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。

OpenBMB/VoxCPM

GitHub Trending (daily)

OpenBMB发布VoxCPM2，一个2B参数的无分词器TTS模型，基于超过200万小时的多语言语音数据训练，支持30种语言、语音设计、可控克隆和48kHz输出。

@akshay_pachaar: 这个TTS模型生成语音的速度比人耳听到快167倍。Supertonic 是一款通过ONNX实现跨平台推理的设备端TTS引擎…