哪个更好的本地移动TTS:Kokoro 还是 Supertonic?
摘要
比较两个本地运行的移动TTS模型——Kokoro和Supertonic,质疑它们在初始演示之外的生产质量。
我看到一些帖子说Kokoro更好,但它们在演示中听起来都不错。不过,它们在真正生产中表现如何呢?
相似文章
在CPU上对Kokoro 82M与Supertonic 3 TTS进行基准测试
详细的CPU基准测试,对比Kokoro 82M和Supertonic 3 TTS模型,测量不同文本长度下的RTF、延迟和吞吐量。结果显示Supertonic 3速度更快,但Kokoro生成的语音更自然,并针对不同使用场景给出了实用建议。
supertone-inc/supertonic
Supertonic 是一个开源的端内文本转语音(TTS)系统,专为本地推理设计,具有极低的开销。现已发布第 3 版,支持 31 种语言,并提升了准确性。
@GoJun315: 本地跑的开源 TTS,把 ElevenLabs 干掉了。 Supertonic,完全跑在本地的语音合成模型,不联网、零 API 费用。 - 仅 99M 参数,M4 Pro 上比实时快 167 倍,树莓派也能跑 - 支持 31 种语言,覆盖…
Supertonic is a lightning-fast, on-device TTS model with 99M parameters, supporting 31 languages. It runs locally with no API costs, outperforms cloud TTS on accuracy for numbers, phone numbers, and technical terms, and can be installed via Python, Node.js, Rust, Go, and more.
@JafarNajafov:Supertonic 彻底击败了 ElevenLabs。一个完全在本地运行的文本转语音模型。无云端。无 API 密钥。无...
本文重点介绍了 Supertonic,这是一个开源的文本转语音模型,完全在本地设备运行。与 ElevenLabs 和 OpenAI 等基于云端的服务相比,它在速度和格式准确性方面均表现出色。
Supertone/supertonic-3
Supertonic 3 是一个轻量级的开权重文本转语音模型,专为快速设备端推理而设计,支持的语言扩展至 31 种,并提升了稳定性及表情标签支持。