@ZyphraAI: 今天我们发布 ZONOS2,我们的下一代实时 TTS 模型,具有高保真语音克隆功能。ZONOS2 是最…
摘要
Zyphra 发布了 ZONOS2,一个开源的实时 TTS 模型,具有高保真语音克隆功能,采用 Apache 2.0 许可,可在基于 AMD 的 Zyphra Cloud 上使用。
查看缓存全文
缓存时间: 2026/06/15 00:52
今天,我们发布ZONOS2,这是我们新一代的实时TTS模型,具备高保真声音克隆能力。
ZONOS2是最具表现力的开源TTS模型,采用Apache 2.0许可发布,并在@AMD上的Zyphra Cloud上提供。
实时TTS一直不得不在质量和速度之间做出取舍。
而ZONOS2两者兼得——它是首个开源的稀疏MoE TTS模型,总参数量8B,激活参数900M。
ZONOS2速度快、推理高效,且极具表现力。
ZONOS2擅长声音克隆,使其成为目前听起来最自然的开源TTS模型。
它捕捉到了更多能体现声音独特性的细节,因此克隆的声音在各类说话者身上都令人信服。声音克隆是零样本的,无需微调。
ZONOS2预测Descript Audio Codec (DAC) Token,生成工作室级别的44.1 kHz音频。
DAC Token可最大程度提升质量,但比低保真自编码器更难建模。我们通过模型和数据规模的扩大弥补了这一差距,因此保真度不会以稳定性为代价。
对于文本,我们不使用音素转换器,而是让ZONOS2直接读取原始UTF-8字节。这带来了:
→ 更广泛的覆盖范围,尤其是低资源语言 → 在中文、韩文、日文上取得巨大提升 → 支持句子中途的语码切换
训练数据从约20万小时扩展到600万小时以上(约707年的音频)。
分阶段数据过滤在预训练、中期训练和退火阶段逐步提高文本转录一致性严格度。这减少了幻觉、误读和重复。
我们还发布了ZTTS1-Eval,这是一个新的TTS基准。
现有评估依赖过时的ASR和朗读语音。ZTTS1-Eval涵盖干净和野外场景的数据集,支持最多17种语言,使用现代评分器(Qwen3-ASR、ReDimNet、MSR-UTMOS),并包含韵律指标。
ZONOS2以Apache 2.0许可开放权重,并在限定时间内于Zyphra Cloud上免费使用。
在Zyphra Cloud上试用:http://cloud.zyphra.com 博客:http://zyphra.com/our-work/zonos2 权重:http://huggingface.co/Zyphra/ZONOS2 推理代码:http://github.com/Zyphra/ZONOS2 评估代码:http://github.com/Zyphra/ZTTS1-Eval…
@ZyphraAI是一家位于加利福尼亚州旧金山的开放超级智能研究与产品公司,致力于构建与人类对齐的AI,帮助个人和组织充分发挥潜力。
欢迎申请加入我们!
相似文章
Zyphra/ZONOS2
ZONOS2 是 Zyphra 推出的一款新型文本转语音模型,基于超过600万小时的多语言语音数据训练,采用混合专家架构,实现高质量语音克隆和低延迟。支持30多种语言,并提供高性能推理服务器。
@Gorden_Sun: ZONOS2:开源MoE TTS模型 8B总参数,0.9B激活参数。支持多语言,支持语音克隆,支持中文,中文效果不错。 模型:
Zyphra released ZONOS2, an open-source MoE text-to-speech model trained on over 6 million hours of multilingual speech, supporting voice cloning and high-quality synthesis across many languages.
本地测试了VoxCPM2(开源TTS)。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。
对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。
@Prince_Canuma: mlx-audio v0.4.3 正式发布!模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型:Higgs Audio v2(声音克隆)…
mlx-audio v0.4.3 发布,新增 6 个 TTS 模型,包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice,同时带来并发请求与持续批处理等服务器改进,Voxtral Realtime 4-bit 模式速度提升约 3 倍,并精简了 Apple Silicon 上的依赖项。
@AdinaYakup: dots.tts 来自小红书的新TTS模型 2B参数 - Apache 2.0 完全连续架构(无编解码器令牌)48kHz合成…
Dots.tts 是来自小红书(RedNote)的新TTS模型,拥有2B参数,遵循Apache 2.0许可,采用完全连续架构(无编解码器令牌),支持48kHz合成和零样本语音克隆。