openbmb/VoxCPM2
摘要
VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型,支持30种语言,拥有20亿参数,48kHz音频输出,并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。
查看缓存全文
缓存时间: 2026/04/20 14:45
openbmb/VoxCPM2 · Hugging Face
来源:https://huggingface.co/openbmb/VoxCPM2 VoxCPM2 是一款无分词器、扩散自回归文本转语音模型——20亿参数,支持30种语言,48kHz音频输出,基于超过200万小时的多语言语音数据训练。
GitHub (https://github.com/OpenBMB/VoxCPM) 文档 (https://voxcpm.readthedocs.io/en/latest/) 演示 (https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo) 音频样本 (https://openbmb.github.io/voxcpm2-demopage) Discord (https://discord.gg/KZUx7tVNwz) 飞书 (https://applink.feishu.cn/client/chat/chatter/add_by_link?link_token=acds0b9d-23d8-4d7e-b696-d200f3e22a7f)
https://huggingface.co/openbmb/VoxCPM2#highlights 亮点
- 🌍30种语言多语言支持——无需语言标签,直接输入任意支持语言的文本
- 🎨声音设计——仅凭自然语言描述(性别、年龄、语调、情绪、语速等)即可生成全新声音,无需参考音频
- 🎛️可控克隆——从短音频中克隆任意声音,并可选择风格引导来控制情绪、语速和表达方式,同时保留音色
- 🎙️极致克隆——提供参考音频及其转录文本进行音频延续克隆,忠实还原每一个声音细节
- 🔊48kHz录音室级输出——接受16kHz参考音频,通过AudioVAE V2内置超分辨率输出48kHz,无需外部上采样器
- 🧠上下文感知合成——根据文本内容自动推断合适的韵律和表现力
- ⚡实时流式输出——在NVIDIA RTX 4090上RTF低至约0.3,经Nano-VLLM (https://github.com/a710128/nanovllm-voxcpm) 加速后约0.13
- 📜完全开源且可商用——Apache-2.0许可证,免费商用
支持的语言(30种)
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语
中文方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话
https://huggingface.co/openbmb/VoxCPM2#quick-start 快速开始
https://huggingface.co/openbmb/VoxCPM2#installation 安装
pip install voxcpm
要求: Python ≥ 3.10,PyTorch ≥ 2.5.0,CUDA ≥ 12.0 · 完整快速开始 → (https://voxcpm.readthedocs.io/en/latest/quickstart.html)
https://huggingface.co/openbmb/VoxCPM2#text-to-speech 文本转语音
`` from voxcpm import VoxCPM import soundfile as sf
model = VoxCPM.from_pretrained(“openbmb/VoxCPM2”, load_denoiser=False)
wav = model.generate( text=“VoxCPM2 brings multilingual support, creative voice design, and controllable voice cloning.”, cfg_value=2.0, inference_timesteps=10, ) sf.write(“output.wav”, wav, model.tts_model.sample_rate) ``
https://huggingface.co/openbmb/VoxCPM2#voice-design 声音设计
将声音描述放在text开头的括号内,后接要合成的内容:
wav = model.generate( text="(一位年轻女性,温柔甜美的声音)你好,欢迎使用VoxCPM2!", cfg_value=2.0, inference_timesteps=10, ) sf.write("voice_design.wav", wav, model.tts_model.sample_rate)
https://huggingface.co/openbmb/VoxCPM2#controllable-voice-cloning 可控语音克隆
``
基础克隆
wav = model.generate( text=“这是VoxCPM2生成的克隆语音。”, reference_wav_path=“speaker.wav”, ) sf.write(“clone.wav”, wav, model.tts_model.sample_rate)
带风格控制的克隆
wav = model.generate( text=“(稍快、欢快的语气)这是带风格控制的克隆语音。”, reference_wav_path=“speaker.wav”, cfg_value=2.0, inference_timesteps=10, ) sf.write(“controllable_clone.wav”, wav, model.tts_model.sample_rate) ``
https://huggingface.co/openbmb/VoxCPM2#ultimate-cloning 极致克隆
同时提供参考音频及其精确转录文本以获得最高保真度。将同一段音频同时传入reference_wav_path和prompt_wav_path以获得最高相似度:
wav = model.generate( text="这是使用VoxCPM2的极致克隆演示。", prompt_wav_path="speaker_reference.wav", prompt_text="参考音频的转录文本。", reference_wav_path="speaker_reference.wav", ) sf.write("hifi_clone.wav", wav, model.tts_model.sample_rate)
https://huggingface.co/openbmb/VoxCPM2#streaming 流式输出
`` import numpy as np
chunks = [] for chunk in model.generate_streaming(text=“Streaming is easy with VoxCPM!”): chunks.append(chunk) wav = np.concatenate(chunks) sf.write(“streaming.wav”, wav, model.tts_model.sample_rate) ``
https://huggingface.co/openbmb/VoxCPM2#model-details 模型详情
| 属性 | 值 |
|---|---|
| 架构 | 无分词器扩散自回归(LocEnc → TSLM → RALM → LocDiT) |
| 主干网络 | 基于MiniCPM-4,共20亿参数 |
| 音频VAE | AudioVAE V2(非对称编解码,16kHz输入 → 48kHz输出) |
| 训练数据 | 200万+小时多语言语音 |
| LM Token速率 | 6.25 Hz |
| 最大序列长度 | 8192 tokens |
| 数据类型 | bfloat16 |
| 显存 | 约8 GB |
| RTF (RTX 4090) | 约0.30(标准)/ 约0.13(Nano-vLLM) |
https://huggingface.co/openbmb/VoxCPM2#performance 性能
VoxCPM2在主要的零样本和可控TTS基准测试中取得了最先进或具有竞争力的结果。
请参阅GitHub仓库 (https://github.com/OpenBMB/VoxCPM#-performance)获取完整的基准测试表格(Seed-TTS-eval、CV3-eval、InstructTTSEval、MiniMax多语言测试)。
https://huggingface.co/openbmb/VoxCPM2#fine-tuning 微调
VoxCPM2支持完整的SFT和LoRA微调,仅需5-10分钟音频:
``
LoRA微调(推荐)
python scripts/train_voxcpm_finetune.py
–config_path conf/voxcpm_v2/voxcpm_finetune_lora.yaml
完整微调
python scripts/train_voxcpm_finetune.py
–config_path conf/voxcpm_v2/voxcpm_finetune_all.yaml
``
请参阅微调指南 (https://voxcpm.readthedocs.io/en/latest/finetuning/finetune.html)获取完整说明。
https://huggingface.co/openbmb/VoxCPM2#limitations 局限性
- 声音设计和风格控制的结果在不同运行之间可能有所不同;建议生成1-3次以获得理想输出。
- 不同语言的性能因训练数据可用性而异。
- 对于非常长或表现力极强的输入,偶尔可能出现不稳定。
- 严禁用于冒充、欺诈或虚假信息。AI生成内容应明确标注。
https://huggingface.co/openbmb/VoxCPM2#citation 引用
`` @article{voxcpm2_2026, title = {VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning}, author = {VoxCPM Team}, journal = {GitHub}, year = {2026}, }
@article{voxcpm2025, title = {VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning}, author = {Zhou, Yixuan and Zeng, Guoyang and Liu, Xin and Li, Xiang and Yu, Renjie and Wang, Ziyang and Ye, Runchuan and Sun, Weiyue and Gui, Jiancheng and Li, Kehan and Wu, Zhiyong and Liu, Zhiyuan}, journal = {arXiv preprint arXiv:2509.24650}, year = {2025}, } ``
https://huggingface.co/openbmb/VoxCPM2#license 许可证
基于Apache-2.0 (https://www.apache.org/licenses/LICENSE-2.0)许可证发布,免费商用。对于生产部署,建议根据您的使用场景进行充分测试和安全评估。
相似文章
OpenBMB/VoxCPM
OpenBMB发布VoxCPM2,一个2B参数的无分词器TTS模型,基于超过200万小时的多语言语音数据训练,支持30种语言、语音设计、可控克隆和48kHz输出。
本地测试了VoxCPM2(开源TTS)。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。
对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。
@Honcia13: 开源TTS直接卷疯了!园区诈骗又有新武器? 清华 OpenBMB 刚刚放出 VoxCPM2: 200亿参数 + 200万小时多语言数据训练,48kHz录音棚级音质! 最狠的是——完全不用Tokenizer,直接在连续潜空间做扩散自回归,细…
清华大学 OpenBMB 发布了 VoxCPM2,这是一个拥有 200 亿参数的开源多语言 TTS 模型,支持无需 Tokenizer 的连续潜空间扩散自回归生成,具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。
@FakeMaidenMaker: 炸裂!这个开源项目免费文字转无 AI 味人声,还能克隆任何人的嗓音,并且用文字调整音色! GitHub 狂揽 30K star,出自面壁智能 OpenBMB,VoxCPM 之前拿过 GitHub 和 HuggingFace 双榜第一。 做…
VoxCPM2是OpenBMB开源的语音合成模型,采用无分词器的扩散自回归架构,支持30种语言、语音设计和可控语音克隆,仅需一句话即可克隆音色,或用文字创建全新声音,输出48kHz高质量音频,可商用。
@Gorden_Sun: ZONOS2:开源MoE TTS模型 8B总参数,0.9B激活参数。支持多语言,支持语音克隆,支持中文,中文效果不错。 模型:
Zyphra released ZONOS2, an open-source MoE text-to-speech model trained on over 6 million hours of multilingual speech, supporting voice cloning and high-quality synthesis across many languages.