我开发了 Derpy Turtle:Kokoro 训练器,一个用于通过 RVC 训练更好 Kokoro 音色的 GUI

Reddit r/LocalLLaMA 工具

摘要

Derpy Turtle 是一款 Windows GUI 工具,旨在通过整合音色搜索、RVC 模型训练和生成后音色转换,将工作流统一起来,从而增强 Kokoro 的语音输出效果。

我一直在开发一款名为 Derpy Turtle:Kokoro 训练器的工具。它最初只是针对 Kokoro 语音的一次随机尝试,但如今已发展成为独立的工具:一个 Windows GUI,通过将 Kokoro 语音搜索与 RVC 语音转换相结合,来创建更优质的本地语音输出。简而言之:Kokoro 擅长生成语音,RVC 擅长匹配目标音色。Derpy Turtle 将二者连接起来。该应用程序允许你: - 加载目标音频片段。 - 针对该目标搜索/优化 Kokoro `.pt` 语音模型。 - 使用目标音频训练 RVC 模型。 - 生成 Kokoro 语音。 - 将输出自动通过你训练的 RVC 模型进行转换。 - 保存最终转换后的 `_rvc.wav` 文件。 我学到的一个重要经验是,单纯追求极高的 Kokoro 相似度分数是不够的。即使在长时间运行后,我的分数仍停留在 80% 中低位的范围。输出有所改善,但听起来仍不够接近目标。更好的方法是使用 Kokoro 作为清晰的语音源,然后让 RVC 处理最终的音色特征。因此,目前的工作流程是: 1. 使用清晰的目标音频训练 RVC 模型。 2. 运行简短的 Kokoro 搜索/优化以获得稳定的语音。 3. 启用“使用最新 RVC”选项。 4. 生成语音。 5. 聆听 `_rvc.wav`,而不仅仅是看优化器分数。 该 GUI 包含预设配置、队列管理、ETA 日志记录、额外目标音频支持、逐音频转录映射、CUDA 支持,以及一个处理首次设置的启动器 `.exe` 文件。几点实用建议: - 你需要干净的训练音频。较小的干净数据集胜过较大的嘈杂数据集。 - RVC 有助于改善音色/身份特征,但它无法神奇地修复糟糕的节奏或发音。 - Kokoro 相似度分数是 RVC 转换前的分数,因此即使分数没有变化,最终转换后的音频听起来也可能好得多。 - CUDA 的影响巨大。在我的 RTX 3060 上,GPU 模式将一次运行时间从 CPU 上的约 26 小时缩短至约 4 小时。 非商业用途完全免费。允许个人/研究用途,但任何希望商业用途的人都需联系我。目标是让本地语音实验更加普及。我已尽最大努力使一切尽可能用户友好。我希望创造这样一个工具:非技术用户只需运行一个 .exe 文件,加载目标音频,进行训练/优化,就能获得可用的输出,而无需手动整合一堆工具。我已将此流程添加到我[这里的游戏中](https://store.steampowered.com/app/4312840/Detective_Turtletop_Who_Killed_Harambe/),如果想实际体验一下可以试试。所有语音均使用此训练器训练而成。祝愉快!
查看原文
查看缓存全文

缓存时间: 2026/05/13 00:19

BovineOverlord/Derpy-Turtle-The-Kokoro-Trainer 来源:https://github.com/BovineOverlord/Derpy-Turtle-The-Kokoro-Trainer

Derpy Turtle: The Kokoro Trainer

Derpy Turtle 是一款优先支持 Windows 的图形界面工具,旨在构建更优质的本地 Kokoro 语音输出。它将 Kokoro 语音搜索、目标音频评分、RVC 模型训练以及生成后的语音转换整合为一个基于队列的工作流。其实用目标很简单:生成清晰的 Kokoro 语音,然后使用经过目标训练的 RVC 模型,使最终音频更接近期望的语音特征。

如果没有以下项目,本项目将无法实现…

  • Kokoro (https://github.com/hexgrad/kokoro) —— 所有功能都围绕其构建的 TTS 模型和语音张量系统。
  • kvoicewalk (https://github.com/RobViren/kvoicewalk) —— 本项目衍生自最初的 Kokoro 随机游走语音搜索。
  • RVC — Retrieval-based Voice Conversion (https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI) —— 用于将生成的语音推向目标语音特征的语音转换技术。
  • rvc-python (https://github.com/daswer123/rvc-python) —— 使 RVC 易于集成的 Python 包装器。
  • Applio (https://github.com/IAHispano/Applio) —— “训练目标 RVC 模型”功能所使用的 RVC 训练后端。
  • faster-whisper (https://github.com/SYSTRAN/faster-whisper) —— 基于 OpenAI Whisper 构建,为“批量转录”功能提供动力的转录引擎。
  • resemblyzer (https://github.com/resemble-ai/resemblyzer) —— 用于评估候选语音与目标语音相似度的说话人嵌入和语音相似度评分工具。
  • librosa (https://librosa.org) —— 在整个音频处理管道中使用的音频分析和重采样库。
  • so-vits-svc-fork (https://github.com/voicepaw/so-vits-svc-fork) —— 替代语音转换后端(sovits 模式)。
  • PyTorch (https://pytorch.org) —— 上述所有技术的机器学习基础。

它的作用

  • 针对一个或多个目标片段运行 Kokoro 随机游走和混合语音搜索。
  • 使用您自己的干净参考音频训练目标 RVC 模型。
  • 在生成后自动应用 RVC,并写入最终的 _rvc.wav 文件。
  • 提供带有预设、预估完成时间(ETA)、进度日志、额外音频片段文本映射以及生成 WAV 文件播放功能的队列 GUI。
  • 通过单个启动器可执行文件引导其自身的 Python 环境。

推荐工作流程

  1. 从目标语音训练 RVC 模型。
  2. 运行简短的 Kokoro 搜索或优化,以获得稳定的源语音。
  3. 启用“使用最新 RVC”(Use Latest RVC)。
  4. 生成并聆听 _rvc.wav 输出。 优化器得分是在 RVC 转换之前测量的。如果 _rvc.wav 听起来更好,请相信音频效果而非 RVC 前的得分。

首次运行

运行: powershell .\derpy-turtle-kokoro-trainer.exe

首次启动时,可执行文件会创建 .venv,安装 Python 依赖项,准备所选的语音转换后端,并打开 GUI。设置日志写入至: text derpy-turtle-launcher.log

简化说明

  1. 请注意,您并不总是需要让随机游走运行完所有步骤,如果它已经取得了足够进展——请检查输出的 .wav 文件以确认进展。
  2. 加载目标音频(建议至少 30 秒长)
  3. 在“目标文本”下写入目标音频的文字内容
  4. 选择一个预设:“均衡”(Balanced)或“快速迭代”(Fast Iterate)
  5. 点击“添加任务”(Add Task)
  6. 点击“启动队列”(Start Queue)
  7. 完成后,加载“起始语音”(/out 中最近的 .pt 文件)
  8. 将模式更改为“训练目标 RVC 模型”(Train Target RVC Model,位于左上角)
  9. 将 VC 预设更改为 RVC
  10. 点击“添加任务”
  11. 点击“启动队列”
  12. 完成后,将模式改回随机游走
  13. 将预设更改为“口音聚焦”(Accent Focus)或“相似度恢复”(Similarity Recovery)
  14. 点击“使用最新 RVC”
  15. 点击“添加任务”
  16. 点击“启动队列”
  17. 最终的 .pt 文件应该非常接近您的目标语音。如果不是,您可能需要尝试调整参数,但这应该能覆盖大多数情况。

系统要求

  • Windows 10/11。
  • 通过 pypython 可用的 Python 3.10、3.11 或 3.12。
  • 推荐 NVIDIA GPU。
  • 当可用时,为 RVC 后端安装支持 CUDA 的 PyTorch。
  • CPU 模式可用,但长时间搜索和 RVC 转换会慢得多。 观察到的本地性能:CUDA 模式使用约 4 GB 显存,并将运行时间从 CPU 上的约 26 小时减少到 RTX 3060 上的约 4 小时。

GUI 模式

Random Walk(随机游走) 搜索 Kokoro 语音张量并写入 .pt.wav 候选文件。

Train Target RVC Model(训练目标 RVC 模型) 从主要目标音频及任何额外目标片段构建 RVC 模型。结果导出至 vc_models/rvc/trained// 下,并通过“使用最新 RVC”可用。

Test Voice(测试语音) 从选定的 .pt 语音和当前目标文本生成快速 WAV。输出写入 out/_test.wav

Transcribe Many(批量转录) 将文件或文件夹中的音频片段转录为文本文件。

Export Voices Bin(导出语音二进制文件) 导出源语音数据以加快启动路径。

RVC 训练

当随机游走达到平台期,或者语音特征的重要性高于 Kokoro 相似度得分时,请使用“训练目标 RVC 模型”。 推荐的初始设置: text RVC Epochs: 250-350 RVC Batch: 4 RVC Sample Rate: 48000 Prepare Dataset Only: off

数据质量比巨大的步数更重要:

  • 最少使用 10-30 分钟干净的目标语音。
  • 如果风格一致,45-90 分钟更好。
  • 移除音乐、重度混响、削波、背景人声和嘈杂部分。
  • 包含您希望模型重现的情感范围、音高范围、语速和口音。

训练完成后,在添加生成任务之前点击“使用最新 RVC”。

Kokoro 搜索设置

对于基于 RVC 的输出,不要花几天时间去追求更高的随机游走得分。Kokoro 语音现在是源表演,而不是最终身份。 良好的默认设置: text Preset: Fast Iterate 或 Similarity Recovery Steps: 500-1500 用于源检查 Device: cuda Post VC: enabled VC: Use Latest RVC

仅当 RVC 前的源语音存在发音、节奏、稳定性或口音问题时,才运行更长的搜索。

输出

随机游走和混合运行在以下目录下写入结果文件夹: text out/

典型文件: text *.pt Kokoro 语音张量候选文件 *.wav RVC 前的 Kokoro 输出 *_rvc.wav 最终 RVC 转换输出

启用 RVC 时,请使用 _rvc.wav 作为最终音频。

额外目标音频

额外的目标片段可以改善评分和 RVC 训练。每个额外片段都可以通过“映射文本”(Map Texts)拥有自己的转录本。不同的文本很有用。具有不同单词、节奏和情感的多个片段比重复相同的短语为训练器提供更多信息。

播放

在 GUI 中使用“播放最新 WAV”(Play Latest WAV),使用 Windows 默认音频播放器打开 out 下最新生成的 WAV 文件。

构建启动器

要重新构建启动器可执行文件: powershell .\build-launcher.cmd

输出为: text derpy-turtle-kokoro-trainer.exe

安全须知

仅对您有权使用的语音进行训练和克隆。请勿使用本项目在未经同意的情况下冒充他人。

相似文章

Aratako/Irodori-TTS-500M-v3

Hugging Face Models Trending

Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。

jaaari/kokoro-82m

Replicate Explore

Kokoro-82M 是一款高效、高质量的文本转语音模型,在 Replicate 上可用,支持多种语言和声音,推理成本低。