OpenBMB/VoxCPM
摘要
OpenBMB发布VoxCPM2,一个2B参数的无分词器TTS模型,基于超过200万小时的多语言语音数据训练,支持30种语言、语音设计、可控克隆和48kHz输出。
查看缓存全文
缓存时间: 2026/05/30 18:47
VoxCPM2:无需分词器的TTS,支持多语言语音生成、创意声音设计及真实克隆
English | 中文
👋 加入我们的社区进行讨论和获取支持!飞书 | Discord
ModelBest THUHCSI
相似文章
openbmb/VoxCPM2
VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型,支持30种语言,拥有20亿参数,48kHz音频输出,并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。
本地测试了VoxCPM2(开源TTS)。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。
对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。
@Honcia13: 开源TTS直接卷疯了!园区诈骗又有新武器? 清华 OpenBMB 刚刚放出 VoxCPM2: 200亿参数 + 200万小时多语言数据训练,48kHz录音棚级音质! 最狠的是——完全不用Tokenizer,直接在连续潜空间做扩散自回归,细…
清华大学 OpenBMB 发布了 VoxCPM2,这是一个拥有 200 亿参数的开源多语言 TTS 模型,支持无需 Tokenizer 的连续潜空间扩散自回归生成,具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。
OpenMOSS-Team/MOSS-TTS-Nano-100M
MOSS-TTS-Nano是一个开源的多语言语音生成模型,仅0.1B参数,专为实时TTS设计,可直接在CPU上运行而无需GPU。由OpenMOSS团队和MOSI.AI发布,它支持简单的本地部署,用于Web服务和产品集成。
@AdinaYakup: MiniCPM V4.6 一个真正能在手机上运行的 1B 多模态大语言模型,由 @OpenBMB 刚刚发布 1B - Apache2.0 支持 iOS、Android,…
OpenBMB 发布了 MiniCPM V4.6,这是一个专为移动设备优化的 1B 参数多模态大语言模型,采用 Apache 2.0 许可证。它具备混合视觉 token 压缩功能,声称在 iOS、Android 和 HarmonyOS 上原生运行时,吞吐量比 Qwen3.5 0.8B 快约 1.5 倍。