我开发了 Derpy Turtle:Kokoro 训练器,一个用于通过 RVC 训练更好 Kokoro 音色的 GUI
摘要
Derpy Turtle 是一款 Windows GUI 工具,旨在通过整合音色搜索、RVC 模型训练和生成后音色转换,将工作流统一起来,从而增强 Kokoro 的语音输出效果。
查看缓存全文
缓存时间: 2026/05/13 00:19
BovineOverlord/Derpy-Turtle-The-Kokoro-Trainer 来源:https://github.com/BovineOverlord/Derpy-Turtle-The-Kokoro-Trainer
Derpy Turtle: The Kokoro Trainer
Derpy Turtle 是一款优先支持 Windows 的图形界面工具,旨在构建更优质的本地 Kokoro 语音输出。它将 Kokoro 语音搜索、目标音频评分、RVC 模型训练以及生成后的语音转换整合为一个基于队列的工作流。其实用目标很简单:生成清晰的 Kokoro 语音,然后使用经过目标训练的 RVC 模型,使最终音频更接近期望的语音特征。
如果没有以下项目,本项目将无法实现…
- Kokoro (https://github.com/hexgrad/kokoro) —— 所有功能都围绕其构建的 TTS 模型和语音张量系统。
- kvoicewalk (https://github.com/RobViren/kvoicewalk) —— 本项目衍生自最初的 Kokoro 随机游走语音搜索。
- RVC — Retrieval-based Voice Conversion (https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI) —— 用于将生成的语音推向目标语音特征的语音转换技术。
- rvc-python (https://github.com/daswer123/rvc-python) —— 使 RVC 易于集成的 Python 包装器。
- Applio (https://github.com/IAHispano/Applio) —— “训练目标 RVC 模型”功能所使用的 RVC 训练后端。
- faster-whisper (https://github.com/SYSTRAN/faster-whisper) —— 基于 OpenAI Whisper 构建,为“批量转录”功能提供动力的转录引擎。
- resemblyzer (https://github.com/resemble-ai/resemblyzer) —— 用于评估候选语音与目标语音相似度的说话人嵌入和语音相似度评分工具。
- librosa (https://librosa.org) —— 在整个音频处理管道中使用的音频分析和重采样库。
- so-vits-svc-fork (https://github.com/voicepaw/so-vits-svc-fork) —— 替代语音转换后端(
sovits模式)。 - PyTorch (https://pytorch.org) —— 上述所有技术的机器学习基础。
它的作用
- 针对一个或多个目标片段运行 Kokoro 随机游走和混合语音搜索。
- 使用您自己的干净参考音频训练目标 RVC 模型。
- 在生成后自动应用 RVC,并写入最终的
_rvc.wav文件。 - 提供带有预设、预估完成时间(ETA)、进度日志、额外音频片段文本映射以及生成 WAV 文件播放功能的队列 GUI。
- 通过单个启动器可执行文件引导其自身的 Python 环境。
推荐工作流程
- 从目标语音训练 RVC 模型。
- 运行简短的 Kokoro 搜索或优化,以获得稳定的源语音。
- 启用“使用最新 RVC”(Use Latest RVC)。
- 生成并聆听
_rvc.wav输出。 优化器得分是在 RVC 转换之前测量的。如果_rvc.wav听起来更好,请相信音频效果而非 RVC 前的得分。
首次运行
运行:
powershell .\derpy-turtle-kokoro-trainer.exe
首次启动时,可执行文件会创建 .venv,安装 Python 依赖项,准备所选的语音转换后端,并打开 GUI。设置日志写入至:
text derpy-turtle-launcher.log
简化说明
- 请注意,您并不总是需要让随机游走运行完所有步骤,如果它已经取得了足够进展——请检查输出的 .wav 文件以确认进展。
- 加载目标音频(建议至少 30 秒长)
- 在“目标文本”下写入目标音频的文字内容
- 选择一个预设:“均衡”(Balanced)或“快速迭代”(Fast Iterate)
- 点击“添加任务”(Add Task)
- 点击“启动队列”(Start Queue)
- 完成后,加载“起始语音”(/out 中最近的 .pt 文件)
- 将模式更改为“训练目标 RVC 模型”(Train Target RVC Model,位于左上角)
- 将 VC 预设更改为 RVC
- 点击“添加任务”
- 点击“启动队列”
- 完成后,将模式改回随机游走
- 将预设更改为“口音聚焦”(Accent Focus)或“相似度恢复”(Similarity Recovery)
- 点击“使用最新 RVC”
- 点击“添加任务”
- 点击“启动队列”
- 最终的 .pt 文件应该非常接近您的目标语音。如果不是,您可能需要尝试调整参数,但这应该能覆盖大多数情况。
系统要求
- Windows 10/11。
- 通过
py或python可用的 Python 3.10、3.11 或 3.12。 - 推荐 NVIDIA GPU。
- 当可用时,为 RVC 后端安装支持 CUDA 的 PyTorch。
- CPU 模式可用,但长时间搜索和 RVC 转换会慢得多。 观察到的本地性能:CUDA 模式使用约 4 GB 显存,并将运行时间从 CPU 上的约 26 小时减少到 RTX 3060 上的约 4 小时。
GUI 模式
Random Walk(随机游走)
搜索 Kokoro 语音张量并写入 .pt 和 .wav 候选文件。
Train Target RVC Model(训练目标 RVC 模型)
从主要目标音频及任何额外目标片段构建 RVC 模型。结果导出至 vc_models/rvc/trained// 下,并通过“使用最新 RVC”可用。
Test Voice(测试语音)
从选定的 .pt 语音和当前目标文本生成快速 WAV。输出写入 out/_test.wav。
Transcribe Many(批量转录)
将文件或文件夹中的音频片段转录为文本文件。
Export Voices Bin(导出语音二进制文件)
导出源语音数据以加快启动路径。
RVC 训练
当随机游走达到平台期,或者语音特征的重要性高于 Kokoro 相似度得分时,请使用“训练目标 RVC 模型”。
推荐的初始设置:
text RVC Epochs: 250-350 RVC Batch: 4 RVC Sample Rate: 48000 Prepare Dataset Only: off
数据质量比巨大的步数更重要:
- 最少使用 10-30 分钟干净的目标语音。
- 如果风格一致,45-90 分钟更好。
- 移除音乐、重度混响、削波、背景人声和嘈杂部分。
- 包含您希望模型重现的情感范围、音高范围、语速和口音。
训练完成后,在添加生成任务之前点击“使用最新 RVC”。
Kokoro 搜索设置
对于基于 RVC 的输出,不要花几天时间去追求更高的随机游走得分。Kokoro 语音现在是源表演,而不是最终身份。
良好的默认设置:
text Preset: Fast Iterate 或 Similarity Recovery Steps: 500-1500 用于源检查 Device: cuda Post VC: enabled VC: Use Latest RVC
仅当 RVC 前的源语音存在发音、节奏、稳定性或口音问题时,才运行更长的搜索。
输出
随机游走和混合运行在以下目录下写入结果文件夹:
text out/
典型文件:
text *.pt Kokoro 语音张量候选文件 *.wav RVC 前的 Kokoro 输出 *_rvc.wav 最终 RVC 转换输出
启用 RVC 时,请使用 _rvc.wav 作为最终音频。
额外目标音频
额外的目标片段可以改善评分和 RVC 训练。每个额外片段都可以通过“映射文本”(Map Texts)拥有自己的转录本。不同的文本很有用。具有不同单词、节奏和情感的多个片段比重复相同的短语为训练器提供更多信息。
播放
在 GUI 中使用“播放最新 WAV”(Play Latest WAV),使用 Windows 默认音频播放器打开 out 下最新生成的 WAV 文件。
构建启动器
要重新构建启动器可执行文件:
powershell .\build-launcher.cmd
输出为:
text derpy-turtle-kokoro-trainer.exe
安全须知
仅对您有权使用的语音进行训练和克隆。请勿使用本项目在未经同意的情况下冒充他人。
相似文章
你好!我制作了一个探索kokoro的工具。
用户发布了一个开源工具来探索kokoro模型,代码在GitHub上,模型数据在HuggingFace上。
Aratako/Irodori-TTS-500M-v3
Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。
jaaari/kokoro-82m
Kokoro-82M 是一款高效、高质量的文本转语音模型,在 Replicate 上可用,支持多种语言和声音,推理成本低。
@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 Kokoro TTS 模型的优化版本。一款轻量级、8200万参数的语音合成器…
NVIDIA 在 Hugging Face 上发布了 Kokoro TTS 模型的优化 ONNX 版本。这款拥有 8200 万参数的模型轻量、快速,且可用于商业用途。
@taiyo_ai_gakuse: 哥们,我真的做了个超棒的东西哈哈,我自己构建了一个CLI,集成了新发布的GPT-Realtime-2,……
一位开发者分享了一个自定义CLI工具,利用新发布的GPT-Realtime-2 API,在视频会议平台中实现日英实时语音翻译。