@ZyphraAI: 今天我们发布 ZONOS2,我们的下一代实时 TTS 模型,具有高保真语音克隆功能。ZONOS2 是最…

X AI KOLs Following 模型

摘要

Zyphra 发布了 ZONOS2,一个开源的实时 TTS 模型,具有高保真语音克隆功能,采用 Apache 2.0 许可,可在基于 AMD 的 Zyphra Cloud 上使用。

今天我们发布 ZONOS2,我们的下一代实时 TTS 模型,具有高保真语音克隆功能。 ZONOS2 是表现力最强的开源 TTS 模型,采用 Apache 2.0 许可发布,可在 @AMD 的 Zyphra Cloud 上使用。🧵 https://t.co/WvI7PXS80M
查看原文
查看缓存全文

缓存时间: 2026/06/15 00:52

今天,我们发布ZONOS2,这是我们新一代的实时TTS模型,具备高保真声音克隆能力。

ZONOS2是最具表现力的开源TTS模型,采用Apache 2.0许可发布,并在@AMD上的Zyphra Cloud上提供。

实时TTS一直不得不在质量和速度之间做出取舍。

而ZONOS2两者兼得——它是首个开源的稀疏MoE TTS模型,总参数量8B,激活参数900M。

ZONOS2速度快、推理高效,且极具表现力。

ZONOS2擅长声音克隆,使其成为目前听起来最自然的开源TTS模型。

它捕捉到了更多能体现声音独特性的细节,因此克隆的声音在各类说话者身上都令人信服。声音克隆是零样本的,无需微调。

ZONOS2预测Descript Audio Codec (DAC) Token,生成工作室级别的44.1 kHz音频。

DAC Token可最大程度提升质量,但比低保真自编码器更难建模。我们通过模型和数据规模的扩大弥补了这一差距,因此保真度不会以稳定性为代价。

对于文本,我们不使用音素转换器,而是让ZONOS2直接读取原始UTF-8字节。这带来了:

→ 更广泛的覆盖范围,尤其是低资源语言 → 在中文、韩文、日文上取得巨大提升 → 支持句子中途的语码切换

训练数据从约20万小时扩展到600万小时以上(约707年的音频)。

分阶段数据过滤在预训练、中期训练和退火阶段逐步提高文本转录一致性严格度。这减少了幻觉、误读和重复。

我们还发布了ZTTS1-Eval,这是一个新的TTS基准。

现有评估依赖过时的ASR和朗读语音。ZTTS1-Eval涵盖干净和野外场景的数据集,支持最多17种语言,使用现代评分器(Qwen3-ASR、ReDimNet、MSR-UTMOS),并包含韵律指标。

ZONOS2以Apache 2.0许可开放权重,并在限定时间内于Zyphra Cloud上免费使用。

在Zyphra Cloud上试用:http://cloud.zyphra.com 博客:http://zyphra.com/our-work/zonos2 权重:http://huggingface.co/Zyphra/ZONOS2 推理代码:http://github.com/Zyphra/ZONOS2 评估代码:http://github.com/Zyphra/ZTTS1-Eval…

@ZyphraAI是一家位于加利福尼亚州旧金山的开放超级智能研究与产品公司,致力于构建与人类对齐的AI,帮助个人和组织充分发挥潜力。

欢迎申请加入我们!

相似文章

Zyphra/ZONOS2

Hugging Face Models Trending

ZONOS2 是 Zyphra 推出的一款新型文本转语音模型,基于超过600万小时的多语言语音数据训练,采用混合专家架构,实现高质量语音克隆和低延迟。支持30多种语言,并提供高性能推理服务器。