@HuggingModels: 想象一个听起来如此自然的文本转语音模型,拥有8200万参数和超过1100万次下载。Kokoro-82M来了,一个…
摘要
Kokoro-82M是一个高度自然的文本转语音模型,拥有8200万参数和超过1100万次下载,代表了AI语音生成的重大进步。
查看缓存全文
缓存时间: 2026/06/17 01:45
想象一下,一个听起来如此自然的文本转语音模型,拥有8200万参数和超过1100万次下载。Kokoro-82M来了,它正在改变我们对AI语音生成的看法。准备好聆听未来了吗?https://t.co/BQqCwY9Bg5
相似文章
jaaari/kokoro-82m
Kokoro-82M 是一款高效、高质量的文本转语音模型,在 Replicate 上可用,支持多种语言和声音,推理成本低。
@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 Kokoro TTS 模型的优化版本。一款轻量级、8200万参数的语音合成器…
NVIDIA 在 Hugging Face 上发布了 Kokoro TTS 模型的优化 ONNX 版本。这款拥有 8200 万参数的模型轻量、快速,且可用于商业用途。
在CPU上对Kokoro 82M与Supertonic 3 TTS进行基准测试
详细的CPU基准测试,对比Kokoro 82M和Supertonic 3 TTS模型,测量不同文本长度下的RTF、延迟和吞吐量。结果显示Supertonic 3速度更快,但Kokoro生成的语音更自然,并针对不同使用场景给出了实用建议。
@Gorden_Sun: ZONOS2:开源MoE TTS模型 8B总参数,0.9B激活参数。支持多语言,支持语音克隆,支持中文,中文效果不错。 模型:
Zyphra released ZONOS2, an open-source MoE text-to-speech model trained on over 6 million hours of multilingual speech, supporting voice cloning and high-quality synthesis across many languages.
哪个更好的本地移动TTS:Kokoro 还是 Supertonic?
比较两个本地运行的移动TTS模型——Kokoro和Supertonic,质疑它们在初始演示之外的生产质量。