jaaari/kokoro-82m

Replicate Explore 模型

摘要

Kokoro-82M 是一款高效、高质量的文本转语音模型,在 Replicate 上可用,支持多种语言和声音,推理成本低。

jaaari / kokoro-82m
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:26

# Kokoro-82M:在 Replicate 上实现高质量、高效的文本转语音 来源:https://replicate.com/jaaari/kokoro-82m ## 运行时间与成本 在 Replicate 上运行该模型的成本约为 $0.00022,即每 $1 可运行 4545 次,但实际费用因输入而异。该模型也是开源的,您可以借助 Docker 在自己的电脑上运行(https://replicate.com/jaaari/kokoro-82m/api)。此模型运行在 Nvidia T4 GPU 硬件上(https://replicate.com/docs/billing)。预测通常在 1 秒内完成。 ## Readme 许可协议:apache-2.0 语言: - en 基础模型: - yl4579/StyleTTS2-LJSpeech pipeline_tag:text-to-speech --- ## 免责声明 本仓库是原始 Kokoro 仓库的一个分支,旨在为 Replicate 提供简便的推理支持。我与原始 Kokoro 作者无关联,此分支并非 Kokoro 模型的正式发布版本。与 Huggingface Space 类似,此实现提供了自动文本分割功能,以支持长文本输入。更多详情请参见下面的原始 README。 --- ## 声音 **训练时长** – 训练期间看到了多少音频?时长越短,总体评级越低。 - 10 小时 <= HH 小时 < 100 小时 - 1 小时 <= H 小时 < 10 小时 - 10 分钟 <= MM 分钟 < 100 分钟 - 1 分钟 <= M 分钟 < 10 分钟 ### 美式英语 🇺🇸 - 使用 [`misaki[en]`](https://github.com/hexgrad/misaki),`lang_code='a'`,回退至 `en-us` espeak-ng | 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 | |------|------|----------|----------|----------|--------| | af_alloy | 🚺 | B | MM 分钟 | C | `6d877149` | | af_aoede | 🚺 | B | H 小时 | C+ | `c03bd1a4` | | af_bella | 🚺 | 🔥**A** | **HH 小时** | **A-** | `8cb64e02` | | af_jessica | 🚺 | C | MM 分钟 | D | `cdfdccb8` | | af_kore | 🚺 | B | H 小时 | C+ | `8bfbc512` | | af_nicole | 🚺 | 🎧B | **HH 小时** | B- | `c5561808` | | af_nova | 🚺 | B | MM 分钟 | C | `e0233676` | | af_river | 🚺 | C | MM 分钟 | D | `e149459b` | | af_sarah | 🚺 | B | H 小时 | C+ | `49bd364e` | | af_sky | 🚺 | B | M 分钟 | C- | `c799548a` | | am_adam | 🚹 | D | H 小时 | F+ | `ced7e284` | | am_echo | 🚹 | C | MM 分钟 | D | `8bcfdc85` | | am_eric | 🚹 | C | MM 分钟 | D | `ada66f0e` | | am_fenrir | 🚹 | B | H 小时 | C+ | `98e507ec` | | am_liam | 🚹 | C | MM 分钟 | D | `c8255075` | | am_michael | 🚹 | B | H 小时 | C+ | `9a443b79` | | am_onyx | 🚹 | C | MM 分钟 | D | `e8452be1` | | am_puck | 🚹 | B | H 小时 | C+ | `dd1d8973` | ### 英式英语 🇬🇧 - 使用 [`misaki[en]`](https://github.com/hexgrad/misaki),`lang_code='b'`,回退至 `en-gb` espeak-ng | 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 | |------|------|----------|----------|----------|--------| | bf_alice | 🚺 | C | MM 分钟 | D | `d292651b` | | bf_emma | 🚺 | B | **HH 小时** | B- | `d0a423de` | | bf_isabella | 🚺 | B | MM 分钟 | C | `cdd4c370` | | bf_lily | 🚺 | C | MM 分钟 | D | `6e09c2e4` | | bm_daniel | 🚹 | C | MM 分钟 | D | `fc3fce4e` | | bm_fable | 🚹 | B | MM 分钟 | C | `d44935f3` | | bm_george | 🚹 | B | MM 分钟 | C | `f1bc8122` | | bm_lewis | 🚹 | C | H 小时 | D+ | `b5204750` | ### 法语 🇫🇷 - 使用 espeak-ng `fr-fr` - 法语训练数据总量:<11 小时 | 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 | 许可 | |------|------|----------|----------|----------|--------|------| | ff_siwis | 🚺 | B | <11 小时 | B- | `8073bf2d` | CC BY | SIWIS (https://datashare.ed.ac.uk/handle/10283/2353) ### 印地语 🇮🇳 - 使用 espeak-ng `hi` - 印地语训练数据总量:H 小时 | 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 | |------|------|----------|----------|----------|--------| | hf_alpha | 🚺 | B | MM 分钟 | C | `06906fe0` | | hf_beta | 🚺 | B | MM 分钟 | C | `63c0a1a6` | | hm_omega | 🚹 | B | MM 分钟 | C | `b55f02a8` | | hm_psi | 🚹 | B | MM 分钟 | C | `2f0f055c` | ### 意大利语 🇮🇹 - 使用 espeak-ng `it` - 意大利语训练数据总量:H 小时 | 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 | |------|------|----------|----------|----------|--------| | if_sara | 🚺 | B | MM 分钟 | C | `6c0b253b` | | im_nicola | 🚹 | B | MM 分钟 | C | `234ed066` | ### 日语 🇯🇵 - 使用 [`misaki[ja]`](https://github.com/hexgrad/misaki) - 日语训练数据总量:H 小时 | 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 | 许可 | |------|------|----------|----------|----------|--------|------| | jf_alpha | 🚺 | B | H 小时 | C+ | `1bf4c9dc` | | | jf_gongitsune | 🚺 | B | MM 分钟 | C | `1b171917` | CC BY | gongitsune (https://github.com/koniwa/koniwa/blob/master/source/tnc/tnc__gongitsune.txt) | jf_nezumi | 🚺 | B | M 分钟 | C- | `d83f007a` | | nezuminoyomeiri (https://github.com/koniwa/koniwa/blob/master/source/tnc/tnc__nezuminoyomeiri.txt) | jf_tebukuro | 🚺 | B | MM 分钟 | C | `0d691790` | | tebukurowokaini (https://github.com/koniwa/koniwa/blob/master/source/tnc/tnc__tebukurowokaini.txt) | jm_kumo | 🚹 | B | M 分钟 | C- | `98340afd` | | kumonoito (https://github.com/koniwa/koniwa/blob/master/source/tnc/tnc__kumonoito.txt) ### 普通话 🇨🇳 - 使用 [`misaki[zh]`](https://github.com/hexgrad/misaki) - 普通话训练数据总量:H 小时 | 名称 | 特性 | 目标质量 | 训练时长 | 总体评级 | SHA256 | |------|------|----------|----------|----------|--------| | zf_xiaobei | 🚺 | C | MM 分钟 | D | `9b76be63` | | zf_xiaoni | 🚺 | C | MM 分钟 | D | `95b49f16` | | zf_xiaoxiao | 🚺 | C | MM 分钟 | D | `cfaf6f2d` | | zf_xiaoyi | 🚺 | C | MM 分钟 | D | `b5235dba` | | zm_yunjian | 🚹 | C | MM 分钟 | D | `76cbf8ba` | | zm_yunxi | 🚹 | C | MM 分钟 | D | `dbe6e1ce` | | zm_yunxia | 🚹 | C | MM 分钟 | D | `bb2b03b0` | | zm_yunyang | 🚹 | C | MM 分钟 | D | `5238ac22` | --- ✨ 现在你可以 `pip install kokoro` (https://github.com/hexgrad/kokoro)!详见使用说明 (https://huggingface.co/hexgrad/Kokoro-82M#usage)。 **Kokoro** 是一个拥有 8200 万个参数的开源权重 TTS 模型。尽管其架构轻量,但能提供与更大模型相当的品质,同时速度更快、成本更低。带有 Apache 许可的 Kokoro 权重可从生产环境部署到个人项目。 - 发布版本 (https://huggingface.co/hexgrad/Kokoro-82M#releases) - 使用说明 (https://huggingface.co/hexgrad/Kokoro-82M#usage) - 声音与语言 (https://huggingface.co/hexgrad/Kokoro-82M#voices-and-languages) - 模型事实 (https://huggingface.co/hexgrad/Kokoro-82M#model-facts) - 训练详情 (https://huggingface.co/hexgrad/Kokoro-82M#training-details) - 知识共享署名 (https://huggingface.co/hexgrad/Kokoro-82M#creative-commons-attribution) - 致谢 (https://huggingface.co/hexgrad/Kokoro-82M#acknowledgements) ### 发布版本 | 模型 | 发布时间 | 训练数据 | 计算(A100 80GB) | 语言与声音 | SHA256 | |------|----------|----------|-------------------|------------|--------| | **v1.0** | **2025年1月27日** | **几百小时** | **$1000 用于 1000 小时** | **6 种语言 & 46 种声音** (https://huggingface.co/hexgrad/Kokoro-82M/blob/main/VOICES.md) | `496dba11` | | v0.19 (https://huggingface.co/hexgrad/kLegacy/tree/main/v0.19) | 2024年12月25日 | <100 小时 | $400 用于 500 小时 | 1 种语言 & 10 种声音 | `3b0c392f` | ### 使用说明 `pip install kokoro` (https://pypi.org/project/kokoro/) 会安装推理库,地址为 https://github.com/hexgrad/kokoro 在底层,`kokoro` 使用 `misaki` (https://pypi.org/project/misaki/),这是一个 G2P 库,地址为 https://github.com/hexgrad/misaki ### 模型事实 **架构:** - StyleTTS 2:https://arxiv.org/abs/2306.07691 - ISTFTNet:https://arxiv.org/abs/2203.02395 - 仅解码器:无扩散模型,无编码器发布 **架构设计者:** Li 等人 @ https://github.com/yl4579/StyleTTS2 **训练者:** Discord 上的 `@rzvzn` **语言:** 美式英语、英式英语、法语、印地语 **模型 SHA256 哈希值:** `496dba118d1a58f5f3db2efc88dbdc216e0483fc89fe6e47ee1f2c53f18ad1e4` ### 训练详情 **计算:** 约 $1000 用于 1000 小时的 A100 80GB vRAM **数据:** Kokoro 仅使用 **许可/非版权音频数据** 和 IPA 音素标签进行训练。许可/非版权音频的示例包括: - 公共领域音频 - 基于 Apache、MIT 等许可的音频 - 由大型提供商封闭式 [2] TTS 模型生成的合成音频 [1] [1] https://copyright.gov/ai/ai_policy_guidance.pdf [2] 不使用来自开源 TTS 模型或“自定义语音克隆”的合成音频 **数据集总大小:** 几百小时的音频 ### 知识共享署名 以下 CC BY 音频是用于训练 Kokoro v1.0 的数据集的一部分。 | 音频数据 | 使用时长 | 许可协议 | 加入训练集时间 | |----------|----------|----------|----------------| | Koniwa (https://github.com/koniwa/koniwa) `tnc` | <1 小时 | CC BY 3.0 (https://creativecommons.org/licenses/by/3.0/deed.ja) | v0.19 / 2024年11月22日 | | SIWIS (https://datashare.ed.ac.uk/handle/10283/2353) | <11 小时 | CC BY 4.0 (https://datashare.ed.ac.uk/bitstream/handle/10283/2353/license_text) | v0.19 / 2024年11月22日 | ### 致谢 - 🛠️ @yl4579 (https://huggingface.co/yl4579) 设计了 StyleTTS 2。 - 🏆 @Pendrokar (https://huggingface.co/Pendrokar) 将 Kokoro 作为参赛者加入了 TTS Spaces Arena。 - 📊 感谢所有贡献合成训练数据的人。 - ❤️ 特别感谢所有计算赞助商。 - 👾 Discord 服务器:https://discord.gg/QuGxSWBfQy - 🪽 Kokoro 是一个日语单词,意为“心”或“精神”。Kokoro 也是《终结者》系列 (https://terminator.fandom.com/wiki/Kokoro) 中一个 AI 的名字。 Kokoro 模型创建于 1 年多前。

相似文章

在CPU上对Kokoro 82M与Supertonic 3 TTS进行基准测试

Reddit r/LocalLLaMA

详细的CPU基准测试,对比Kokoro 82M和Supertonic 3 TTS模型,测量不同文本长度下的RTF、延迟和吞吐量。结果显示Supertonic 3速度更快,但Kokoro生成的语音更自然,并针对不同使用场景给出了实用建议。

Aratako/Irodori-TTS-500M-v3

Hugging Face Models Trending

Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。