本地测试了VoxCPM2(开源TTS)。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。
摘要
对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。
大家好,我最近深入研究了开源文本转语音模型,用于构建本地自动化工作流。我想分享我对**VoxCPM2**的技术解析与基准测试。大多数开源TTS模型存在情感平淡或金属音质的缺陷。但VoxCPM2采用了一种名为**“终极克隆模式”**的架构,试图通过映射非语言人类语音元素来弥补这一差距。# 1. 测试的关键技术特性:* **微细节捕捉:** 与标准的Bark或Tortoise类模型不同,该架构能够捕捉呼吸间隙、微停顿以及自然的语音节奏。* **本地VRAM占用:** 完全本地运行。VRAM消耗经过高度优化,使其适用于本地MicroSaaS后端集成或流水线自动化,无需承担高昂的API费用。* **跨语言口音保持:** 在超过30种支持的语言中测试。即使迫使说话者使用完全陌生的语言,模型仍能保留核心的音色/特征。# 2. 沙盒架构:在此次基准测试中,我将模型本地部署,并输入了一段干净的15秒录音室语音样本。流水线设置为输出录音室级别的48kHz音频。合成音素与原始音频情感曲线之间的对齐效果出奇地紧密。# 3. 55秒音频对比与基准测试演示:我录制了确切的终端执行过程、VRAM行为以及并排音频输出对比(原始语音与克隆语音生成技术文案),制作成了一段快速解析视频。您可以在此直接听取原始语音复制质量并查看实时处理速度**:** [**https://youtube.com/shorts/qIKywJXLQhU**](https://youtube.com/shorts/qIKywJXLQhU) #
相似文章
openbmb/VoxCPM2
VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型,支持30种语言,拥有20亿参数,48kHz音频输出,并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。
OpenBMB/VoxCPM
OpenBMB发布VoxCPM2,一个2B参数的无分词器TTS模型,基于超过200万小时的多语言语音数据训练,支持30种语言、语音设计、可控克隆和48kHz输出。
@Honcia13: 开源TTS直接卷疯了!园区诈骗又有新武器? 清华 OpenBMB 刚刚放出 VoxCPM2: 200亿参数 + 200万小时多语言数据训练,48kHz录音棚级音质! 最狠的是——完全不用Tokenizer,直接在连续潜空间做扩散自回归,细…
清华大学 OpenBMB 发布了 VoxCPM2,这是一个拥有 200 亿参数的开源多语言 TTS 模型,支持无需 Tokenizer 的连续潜空间扩散自回归生成,具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。
seshat-tts:一款支持语音克隆的本地实时游戏旁白工具
seshat-tts 是一款开源工具,可通过 OCR 或大语言模型提取文本,并使用 pocket-tts 进行本地合成,实现带语音克隆的实时游戏旁白。语音克隆在 RTX 2070 Super 上约需 10 秒,缓存后可在 CPU 上运行。
@tom_doerr: 零样本语音克隆支持30种语言 https://github.com/sunnyxrxrx/X-Voice…
X-Voice 是一个基于流匹配的多语言文本转语音系统,支持跨30种语言的零样本语音克隆,并提供开源代码、模型及演示。