jaaari/kokoro-82m
摘要
Kokoro-82M 是一款高效、高质量的文本转语音模型,在 Replicate 上可用,支持多种语言和声音,推理成本低。
jaaari / kokoro-82m
查看缓存全文
缓存时间: 2026/05/08 06:26
# Kokoro-82M:在 Replicate 上实现高质量、高效的文本转语音
来源:https://replicate.com/jaaari/kokoro-82m
## 运行时间与成本
在 Replicate 上运行该模型的成本约为 $0.00022,即每 $1 可运行 4545 次,但实际费用因输入而异。该模型也是开源的,您可以借助 Docker 在自己的电脑上运行(https://replicate.com/jaaari/kokoro-82m/api)。此模型运行在 Nvidia T4 GPU 硬件上(https://replicate.com/docs/billing)。预测通常在 1 秒内完成。
## Readme 许可协议:apache-2.0
语言:
- en
基础模型:
- yl4579/StyleTTS2-LJSpeech
pipeline_tag:text-to-speech
---
## 免责声明
本仓库是原始 Kokoro 仓库的一个分支,旨在为 Replicate 提供简便的推理支持。我与原始 Kokoro 作者无关联,此分支并非 Kokoro 模型的正式发布版本。与 Huggingface Space 类似,此实现提供了自动文本分割功能,以支持长文本输入。更多详情请参见下面的原始 README。
---
## 声音
**训练时长** – 训练期间看到了多少音频?时长越短,总体评级越低。
- 10 小时 <= HH 小时 < 100 小时
- 1 小时 <= H 小时 < 10 小时
- 10 分钟 <= MM 分钟 < 100 分钟
- 1 分钟 <= M 分钟 < 10 分钟
### 美式英语 🇺🇸
- 使用 [`misaki[en]`](https://github.com/hexgrad/misaki),`lang_code='a'`,回退至 `en-us` espeak-ng
| 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 |
|------|------|----------|----------|----------|--------|
| af_alloy | 🚺 | B | MM 分钟 | C | `6d877149` |
| af_aoede | 🚺 | B | H 小时 | C+ | `c03bd1a4` |
| af_bella | 🚺 | 🔥**A** | **HH 小时** | **A-** | `8cb64e02` |
| af_jessica | 🚺 | C | MM 分钟 | D | `cdfdccb8` |
| af_kore | 🚺 | B | H 小时 | C+ | `8bfbc512` |
| af_nicole | 🚺 | 🎧B | **HH 小时** | B- | `c5561808` |
| af_nova | 🚺 | B | MM 分钟 | C | `e0233676` |
| af_river | 🚺 | C | MM 分钟 | D | `e149459b` |
| af_sarah | 🚺 | B | H 小时 | C+ | `49bd364e` |
| af_sky | 🚺 | B | M 分钟 | C- | `c799548a` |
| am_adam | 🚹 | D | H 小时 | F+ | `ced7e284` |
| am_echo | 🚹 | C | MM 分钟 | D | `8bcfdc85` |
| am_eric | 🚹 | C | MM 分钟 | D | `ada66f0e` |
| am_fenrir | 🚹 | B | H 小时 | C+ | `98e507ec` |
| am_liam | 🚹 | C | MM 分钟 | D | `c8255075` |
| am_michael | 🚹 | B | H 小时 | C+ | `9a443b79` |
| am_onyx | 🚹 | C | MM 分钟 | D | `e8452be1` |
| am_puck | 🚹 | B | H 小时 | C+ | `dd1d8973` |
### 英式英语 🇬🇧
- 使用 [`misaki[en]`](https://github.com/hexgrad/misaki),`lang_code='b'`,回退至 `en-gb` espeak-ng
| 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 |
|------|------|----------|----------|----------|--------|
| bf_alice | 🚺 | C | MM 分钟 | D | `d292651b` |
| bf_emma | 🚺 | B | **HH 小时** | B- | `d0a423de` |
| bf_isabella | 🚺 | B | MM 分钟 | C | `cdd4c370` |
| bf_lily | 🚺 | C | MM 分钟 | D | `6e09c2e4` |
| bm_daniel | 🚹 | C | MM 分钟 | D | `fc3fce4e` |
| bm_fable | 🚹 | B | MM 分钟 | C | `d44935f3` |
| bm_george | 🚹 | B | MM 分钟 | C | `f1bc8122` |
| bm_lewis | 🚹 | C | H 小时 | D+ | `b5204750` |
### 法语 🇫🇷
- 使用 espeak-ng `fr-fr`
- 法语训练数据总量:<11 小时
| 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 | 许可 |
|------|------|----------|----------|----------|--------|------|
| ff_siwis | 🚺 | B | <11 小时 | B- | `8073bf2d` | CC BY |
SIWIS (https://datashare.ed.ac.uk/handle/10283/2353)
### 印地语 🇮🇳
- 使用 espeak-ng `hi`
- 印地语训练数据总量:H 小时
| 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 |
|------|------|----------|----------|----------|--------|
| hf_alpha | 🚺 | B | MM 分钟 | C | `06906fe0` |
| hf_beta | 🚺 | B | MM 分钟 | C | `63c0a1a6` |
| hm_omega | 🚹 | B | MM 分钟 | C | `b55f02a8` |
| hm_psi | 🚹 | B | MM 分钟 | C | `2f0f055c` |
### 意大利语 🇮🇹
- 使用 espeak-ng `it`
- 意大利语训练数据总量:H 小时
| 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 |
|------|------|----------|----------|----------|--------|
| if_sara | 🚺 | B | MM 分钟 | C | `6c0b253b` |
| im_nicola | 🚹 | B | MM 分钟 | C | `234ed066` |
### 日语 🇯🇵
- 使用 [`misaki[ja]`](https://github.com/hexgrad/misaki)
- 日语训练数据总量:H 小时
| 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 | 许可 |
|------|------|----------|----------|----------|--------|------|
| jf_alpha | 🚺 | B | H 小时 | C+ | `1bf4c9dc` | |
| jf_gongitsune | 🚺 | B | MM 分钟 | C | `1b171917` | CC BY |
gongitsune (https://github.com/koniwa/koniwa/blob/master/source/tnc/tnc__gongitsune.txt)
| jf_nezumi | 🚺 | B | M 分钟 | C- | `d83f007a` | |
nezuminoyomeiri (https://github.com/koniwa/koniwa/blob/master/source/tnc/tnc__nezuminoyomeiri.txt)
| jf_tebukuro | 🚺 | B | MM 分钟 | C | `0d691790` | |
tebukurowokaini (https://github.com/koniwa/koniwa/blob/master/source/tnc/tnc__tebukurowokaini.txt)
| jm_kumo | 🚹 | B | M 分钟 | C- | `98340afd` | |
kumonoito (https://github.com/koniwa/koniwa/blob/master/source/tnc/tnc__kumonoito.txt)
### 普通话 🇨🇳
- 使用 [`misaki[zh]`](https://github.com/hexgrad/misaki)
- 普通话训练数据总量:H 小时
| 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 |
|------|------|----------|----------|----------|--------|
| zf_xiaobei | 🚺 | C | MM 分钟 | D | `9b76be63` |
| zf_xiaoni | 🚺 | C | MM 分钟 | D | `95b49f16` |
| zf_xiaoxiao | 🚺 | C | MM 分钟 | D | `cfaf6f2d` |
| zf_xiaoyi | 🚺 | C | MM 分钟 | D | `b5235dba` |
| zm_yunjian | 🚹 | C | MM 分钟 | D | `76cbf8ba` |
| zm_yunxi | 🚹 | C | MM 分钟 | D | `dbe6e1ce` |
| zm_yunxia | 🚹 | C | MM 分钟 | D | `bb2b03b0` |
| zm_yunyang | 🚹 | C | MM 分钟 | D | `5238ac22` |
---
✨ 现在你可以 `pip install kokoro` (https://github.com/hexgrad/kokoro)!详见使用说明 (https://huggingface.co/hexgrad/Kokoro-82M#usage)。
**Kokoro** 是一个拥有 8200 万个参数的开源权重 TTS 模型。尽管其架构轻量,但能提供与更大模型相当的品质,同时速度更快、成本更低。带有 Apache 许可的 Kokoro 权重可从生产环境部署到个人项目。
- 发布版本 (https://huggingface.co/hexgrad/Kokoro-82M#releases)
- 使用说明 (https://huggingface.co/hexgrad/Kokoro-82M#usage)
- 声音与语言 (https://huggingface.co/hexgrad/Kokoro-82M#voices-and-languages)
- 模型事实 (https://huggingface.co/hexgrad/Kokoro-82M#model-facts)
- 训练详情 (https://huggingface.co/hexgrad/Kokoro-82M#training-details)
- 知识共享署名 (https://huggingface.co/hexgrad/Kokoro-82M#creative-commons-attribution)
- 致谢 (https://huggingface.co/hexgrad/Kokoro-82M#acknowledgements)
### 发布版本
| 模型 | 发布时间 | 训练数据 | 计算(A100 80GB) | 语言与声音 | SHA256 |
|------|----------|----------|-------------------|------------|--------|
| **v1.0** | **2025年1月27日** | **几百小时** | **$1000 用于 1000 小时** | **6 种语言 & 46 种声音** (https://huggingface.co/hexgrad/Kokoro-82M/blob/main/VOICES.md) | `496dba11` |
| v0.19 (https://huggingface.co/hexgrad/kLegacy/tree/main/v0.19) | 2024年12月25日 | <100 小时 | $400 用于 500 小时 | 1 种语言 & 10 种声音 | `3b0c392f` |
### 使用说明
`pip install kokoro` (https://pypi.org/project/kokoro/) 会安装推理库,地址为 https://github.com/hexgrad/kokoro
在底层,`kokoro` 使用 `misaki` (https://pypi.org/project/misaki/),这是一个 G2P 库,地址为 https://github.com/hexgrad/misaki
### 模型事实
**架构:**
- StyleTTS 2:https://arxiv.org/abs/2306.07691
- ISTFTNet:https://arxiv.org/abs/2203.02395
- 仅解码器:无扩散模型,无编码器发布
**架构设计者:** Li 等人 @ https://github.com/yl4579/StyleTTS2
**训练者:** Discord 上的 `@rzvzn`
**语言:** 美式英语、英式英语、法语、印地语
**模型 SHA256 哈希值:** `496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4`
### 训练详情
**计算:** 约 $1000 用于 1000 小时的 A100 80GB vRAM
**数据:** Kokoro 仅使用 **许可/非版权音频数据** 和 IPA 音素标签进行训练。许可/非版权音频的示例包括:
- 公共领域音频
- 基于 Apache、MIT 等许可的音频
- 由大型提供商封闭式 [2] TTS 模型生成的合成音频 [1]
[1] https://copyright.gov/ai/ai_policy_guidance.pdf
[2] 不使用来自开源 TTS 模型或“自定义语音克隆”的合成音频
**数据集总大小:** 几百小时的音频
### 知识共享署名
以下 CC BY 音频是用于训练 Kokoro v1.0 的数据集的一部分。
| 音频数据 | 使用时长 | 许可协议 | 加入训练集时间 |
|----------|----------|----------|----------------|
| Koniwa (https://github.com/koniwa/koniwa) `tnc` | <1 小时 | CC BY 3.0 (https://creativecommons.org/licenses/by/3.0/deed.ja) | v0.19 / 2024年11月22日 |
| SIWIS (https://datashare.ed.ac.uk/handle/10283/2353) | <11 小时 | CC BY 4.0 (https://datashare.ed.ac.uk/bitstream/handle/10283/2353/license_text) | v0.19 / 2024年11月22日 |
### 致谢
- 🛠️ @yl4579 (https://huggingface.co/yl4579) 设计了 StyleTTS 2。
- 🏆 @Pendrokar (https://huggingface.co/Pendrokar) 将 Kokoro 作为参赛者加入了 TTS Spaces Arena。
- 📊 感谢所有贡献合成训练数据的人。
- ❤️ 特别感谢所有计算赞助商。
- 👾 Discord 服务器:https://discord.gg/QuGxSWBfQy
- 🪽 Kokoro 是一个日语单词,意为“心”或“精神”。Kokoro 也是《终结者》系列 (https://terminator.fandom.com/wiki/Kokoro) 中一个 AI 的名字。
Kokoro 模型创建于 1 年多前。
相似文章
@HuggingModels: 想象一个听起来如此自然的文本转语音模型,拥有8200万参数和超过1100万次下载。Kokoro-82M来了,一个…
Kokoro-82M是一个高度自然的文本转语音模型,拥有8200万参数和超过1100万次下载,代表了AI语音生成的重大进步。
@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 Kokoro TTS 模型的优化版本。一款轻量级、8200万参数的语音合成器…
NVIDIA 在 Hugging Face 上发布了 Kokoro TTS 模型的优化 ONNX 版本。这款拥有 8200 万参数的模型轻量、快速,且可用于商业用途。
在CPU上对Kokoro 82M与Supertonic 3 TTS进行基准测试
详细的CPU基准测试,对比Kokoro 82M和Supertonic 3 TTS模型,测量不同文本长度下的RTF、延迟和吞吐量。结果显示Supertonic 3速度更快,但Kokoro生成的语音更自然,并针对不同使用场景给出了实用建议。
哪个更好的本地移动TTS:Kokoro 还是 Supertonic?
比较两个本地运行的移动TTS模型——Kokoro和Supertonic,质疑它们在初始演示之外的生产质量。
Aratako/Irodori-TTS-500M-v3
Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。