OpenBMB/VoxCPM

GitHub Trending (daily) 模型

text-to-speech multilingual voice-cloning tokenizer-free diffusion open-source audio-generation

摘要

OpenBMB发布VoxCPM2，一个2B参数的无分词器TTS模型，基于超过200万小时的多语言语音数据训练，支持30种语言、语音设计、可控克隆和48kHz输出。

VoxCPM2: 无分词器TTS，用于多语言语音生成、创意语音设计和逼真克隆

查看原文

查看缓存全文

缓存时间: 2026/05/30 18:47

VoxCPM2：无需分词器的TTS，支持多语言语音生成、创意声音设计及真实克隆

English | 中文

👋 加入我们的社区进行讨论和获取支持！飞书 | Discord

ModelBest THUHCSI

相似文章

openbmb/VoxCPM2

Hugging Face Models Trending

VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型，支持30种语言，拥有20亿参数，48kHz音频输出，并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。

本地测试了VoxCPM2（开源TTS）。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。

Reddit r/ArtificialInteligence

对VoxCPM2的技术解析与基准测试，这是一款开源TTS模型，具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…

X AI KOLs Timeline

清华大学 OpenBMB 发布了 VoxCPM2，这是一个拥有 200 亿参数的开源多语言 TTS 模型，支持无需 Tokenizer 的连续潜空间扩散自回归生成，具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。

OpenMOSS-Team/MOSS-TTS-Nano-100M

Hugging Face Models Trending

MOSS-TTS-Nano是一个开源的多语言语音生成模型，仅0.1B参数，专为实时TTS设计，可直接在CPU上运行而无需GPU。由OpenMOSS团队和MOSI.AI发布，它支持简单的本地部署，用于Web服务和产品集成。

@AdinaYakup: MiniCPM V4.6 一个真正能在手机上运行的 1B 多模态大语言模型，由 @OpenBMB 刚刚发布 1B - Apache2.0 支持 iOS、Android,…

X AI KOLs Following

OpenBMB 发布了 MiniCPM V4.6，这是一个专为移动设备优化的 1B 参数多模态大语言模型，采用 Apache 2.0 许可证。它具备混合视觉 token 压缩功能，声称在 iOS、Android 和 HarmonyOS 上原生运行时，吞吐量比 Qwen3.5 0.8B 快约 1.5 倍。