@ZyphraAI: 今天我们发布 ZONOS2，我们的下一代实时 TTS 模型，具有高保真语音克隆功能。ZONOS2 是最…

X AI KOLs Following 2026/06/12 18:18 模型

real-time-tts voice-cloning open-source text-to-speech audio-generation apache-2.0

摘要

Zyphra 发布了 ZONOS2，一个开源的实时 TTS 模型，具有高保真语音克隆功能，采用 Apache 2.0 许可，可在基于 AMD 的 Zyphra Cloud 上使用。

今天我们发布 ZONOS2，我们的下一代实时 TTS 模型，具有高保真语音克隆功能。 ZONOS2 是表现力最强的开源 TTS 模型，采用 Apache 2.0 许可发布，可在 @AMD 的 Zyphra Cloud 上使用。🧵 https://t.co/WvI7PXS80M

查看原文

查看缓存全文

缓存时间: 2026/06/15 00:52

今天，我们发布ZONOS2，这是我们新一代的实时TTS模型，具备高保真声音克隆能力。

ZONOS2是最具表现力的开源TTS模型，采用Apache 2.0许可发布，并在@AMD上的Zyphra Cloud上提供。

实时TTS一直不得不在质量和速度之间做出取舍。

而ZONOS2两者兼得——它是首个开源的稀疏MoE TTS模型，总参数量8B，激活参数900M。

ZONOS2速度快、推理高效，且极具表现力。

ZONOS2擅长声音克隆，使其成为目前听起来最自然的开源TTS模型。

它捕捉到了更多能体现声音独特性的细节，因此克隆的声音在各类说话者身上都令人信服。声音克隆是零样本的，无需微调。

ZONOS2预测Descript Audio Codec (DAC) Token，生成工作室级别的44.1 kHz音频。

DAC Token可最大程度提升质量，但比低保真自编码器更难建模。我们通过模型和数据规模的扩大弥补了这一差距，因此保真度不会以稳定性为代价。

对于文本，我们不使用音素转换器，而是让ZONOS2直接读取原始UTF-8字节。这带来了：

→ 更广泛的覆盖范围，尤其是低资源语言 → 在中文、韩文、日文上取得巨大提升 → 支持句子中途的语码切换

训练数据从约20万小时扩展到600万小时以上（约707年的音频）。

分阶段数据过滤在预训练、中期训练和退火阶段逐步提高文本转录一致性严格度。这减少了幻觉、误读和重复。

我们还发布了ZTTS1-Eval，这是一个新的TTS基准。

现有评估依赖过时的ASR和朗读语音。ZTTS1-Eval涵盖干净和野外场景的数据集，支持最多17种语言，使用现代评分器（Qwen3-ASR、ReDimNet、MSR-UTMOS），并包含韵律指标。

ZONOS2以Apache 2.0许可开放权重，并在限定时间内于Zyphra Cloud上免费使用。

在Zyphra Cloud上试用：http://cloud.zyphra.com 博客：http://zyphra.com/our-work/zonos2 权重：http://huggingface.co/Zyphra/ZONOS2 推理代码：http://github.com/Zyphra/ZONOS2 评估代码：http://github.com/Zyphra/ZTTS1-Eval…

@ZyphraAI是一家位于加利福尼亚州旧金山的开放超级智能研究与产品公司，致力于构建与人类对齐的AI，帮助个人和组织充分发挥潜力。

欢迎申请加入我们！

相似文章

Zyphra/ZONOS2

Hugging Face Models Trending

ZONOS2 是 Zyphra 推出的一款新型文本转语音模型，基于超过600万小时的多语言语音数据训练，采用混合专家架构，实现高质量语音克隆和低延迟。支持30多种语言，并提供高性能推理服务器。

@Gorden_Sun: ZONOS2：开源MoE TTS模型 8B总参数，0.9B激活参数。支持多语言，支持语音克隆，支持中文，中文效果不错。模型：

X AI KOLs Timeline

Zyphra released ZONOS2, an open-source MoE text-to-speech model trained on over 6 million hours of multilingual speech, supporting voice cloning and high-quality synthesis across many languages.

本地测试了VoxCPM2（开源TTS）。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。

Reddit r/ArtificialInteligence

对VoxCPM2的技术解析与基准测试，这是一款开源TTS模型，具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。

@Prince_Canuma: mlx-audio v0.4.3 正式发布！模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型：Higgs Audio v2（声音克隆）…

X AI KOLs Timeline

mlx-audio v0.4.3 发布，新增 6 个 TTS 模型，包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice，同时带来并发请求与持续批处理等服务器改进，Voxtral Realtime 4-bit 模式速度提升约 3 倍，并精简了 Apple Silicon 上的依赖项。

@AdinaYakup: dots.tts 来自小红书的新TTS模型 2B参数 - Apache 2.0 完全连续架构（无编解码器令牌）48kHz合成…

X AI KOLs Following

Dots.tts 是来自小红书（RedNote）的新TTS模型，拥有2B参数，遵循Apache 2.0许可，采用完全连续架构（无编解码器令牌），支持48kHz合成和零样本语音克隆。