本地测试了VoxCPM2（开源TTS）。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。

Reddit r/ArtificialInteligence 2026/06/04 03:01 模型

摘要

对VoxCPM2的技术解析与基准测试，这是一款开源TTS模型，具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。

大家好，我最近深入研究了开源文本转语音模型，用于构建本地自动化工作流。我想分享我对**VoxCPM2**的技术解析与基准测试。大多数开源TTS模型存在情感平淡或金属音质的缺陷。但VoxCPM2采用了一种名为**“终极克隆模式”**的架构，试图通过映射非语言人类语音元素来弥补这一差距。# 1. 测试的关键技术特性：* **微细节捕捉：** 与标准的Bark或Tortoise类模型不同，该架构能够捕捉呼吸间隙、微停顿以及自然的语音节奏。* **本地VRAM占用：** 完全本地运行。VRAM消耗经过高度优化，使其适用于本地MicroSaaS后端集成或流水线自动化，无需承担高昂的API费用。* **跨语言口音保持：** 在超过30种支持的语言中测试。即使迫使说话者使用完全陌生的语言，模型仍能保留核心的音色/特征。# 2. 沙盒架构：在此次基准测试中，我将模型本地部署，并输入了一段干净的15秒录音室语音样本。流水线设置为输出录音室级别的48kHz音频。合成音素与原始音频情感曲线之间的对齐效果出奇地紧密。# 3. 55秒音频对比与基准测试演示：我录制了确切的终端执行过程、VRAM行为以及并排音频输出对比（原始语音与克隆语音生成技术文案），制作成了一段快速解析视频。您可以在此直接听取原始语音复制质量并查看实时处理速度**：** [**https://youtube.com/shorts/qIKywJXLQhU**](https://youtube.com/shorts/qIKywJXLQhU) #

查看原文

相似文章

openbmb/VoxCPM2

Hugging Face Models Trending

VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型，支持30种语言，拥有20亿参数，48kHz音频输出，并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。

OpenBMB/VoxCPM

GitHub Trending (daily)

OpenBMB发布VoxCPM2，一个2B参数的无分词器TTS模型，基于超过200万小时的多语言语音数据训练，支持30种语言、语音设计、可控克隆和48kHz输出。

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…

X AI KOLs Timeline

清华大学 OpenBMB 发布了 VoxCPM2，这是一个拥有 200 亿参数的开源多语言 TTS 模型，支持无需 Tokenizer 的连续潜空间扩散自回归生成，具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。

seshat-tts：一款支持语音克隆的本地实时游戏旁白工具

Reddit r/ArtificialInteligence

seshat-tts 是一款开源工具，可通过 OCR 或大语言模型提取文本，并使用 pocket-tts 进行本地合成，实现带语音克隆的实时游戏旁白。语音克隆在 RTX 2070 Super 上约需 10 秒，缓存后可在 CPU 上运行。

@tom_doerr: 零样本语音克隆支持30种语言 https://github.com/sunnyxrxrx/X-Voice…