@Chenzeze777: 发现一个开源的语音合成模型,不说一声实在过意不去。 20 亿参数,200 万小时数据训练,30 种语言+9 种中国方言直接输入文本就合成,连四川话粤语东北话都有。 最离谱的是什么? 你用自然语言描述音色——「年轻女性,温柔甜美」——它就给…
摘要
介绍了一个开源的语音合成模型,20亿参数、200万小时训练,支持30种语言和9种中国方言,可用自然语言描述音色,3秒录音即可克隆声音,音质达48kHz,Apache-2.0协议免费商用。
查看缓存全文
缓存时间: 2026/06/08 15:27
发现一个开源的语音合成模型,不说一声实在过意不去。
20 亿参数,200 万小时数据训练,30 种语言+9 种中国方言直接输入文本就合成,连四川话粤语东北话都有。
最离谱的是什么?
你用自然语言描述音色——「年轻女性,温柔甜美」——它就给你凭空造一个全新声音出来,连参考音频都不需要。
克隆声音也给力:给段 3 秒录音,情绪语速表现力随你调,48 kHz 录音室级音质直出。
三行代码本地跑,Apache-2.0 协议,免费商用。
做播客的、做短视频的、做游戏的,这个不收藏真亏。
相似文章
@billtheinvestor: 上海交通大学开源 F5-TTS 语音生成模型。该模型基于 10 万小时数据训练,支持中英多语言合成。技术特性包含 Zero-shot 声音克隆、基于总时长的速度控制、情感表现控制及长文本合成。支持商用。
上海交通大学开源了 F5-TTS 语音生成模型,该模型基于 10 万小时数据训练,支持中英多语言合成及 Zero-shot 声音克隆,并允许商用。
@Honcia13: 开源TTS直接卷疯了!园区诈骗又有新武器? 清华 OpenBMB 刚刚放出 VoxCPM2: 200亿参数 + 200万小时多语言数据训练,48kHz录音棚级音质! 最狠的是——完全不用Tokenizer,直接在连续潜空间做扩散自回归,细…
清华大学 OpenBMB 发布了 VoxCPM2,这是一个拥有 200 亿参数的开源多语言 TTS 模型,支持无需 Tokenizer 的连续潜空间扩散自回归生成,具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。
@lxfater: 网易有道开源了子曰4大模型,27B参数内,数理 SOTA 但真正让我觉得有趣的是它那个语音功能!! 克隆个声音不稀奇,ElevenLabs 早能做 但它们都有个通病,跨语种会串口音 拿你的中文声音去说日语,它带着一口中国腔,一听就是外国人…
网易有道开源了子曰4大模型,27B参数,数理性能达到SOTA;其语音功能支持3秒跨语言声音克隆,14种语言且无口音问题,同时开源了全场景智能体龙虾。
@QT9277: 《不是,这AI声音合成已经变态到这种程度了???》 阿台我今天刷GitHub直接懵了。 VoxCPM2,趋势榜第一,星标干到2万+,海外彻底炸了。我本来以为是又一个PPT开源项目,结果仔细看了眼Demo——我耳朵真的分不清哪个是真人了。 …
介绍VoxCPM2,一个完全免费商用、开源的多语言语音合成模型,支持声音设计、克隆及48kHz高质量输出,在GitHub趋势榜第一。
@Gorden_Sun: ZONOS2:开源MoE TTS模型 8B总参数,0.9B激活参数。支持多语言,支持语音克隆,支持中文,中文效果不错。 模型:
Zyphra released ZONOS2, an open-source MoE text-to-speech model trained on over 6 million hours of multilingual speech, supporting voice cloning and high-quality synthesis across many languages.