@AlphaSignalAI：一个66M参数的模型刚刚在树莓派上击败了ElevenLabs。文本转语音多年来一直存在于云端。每个语音…

X AI KOLs Timeline 2026/05/22 12:01 模型

text-to-speech open-source on-device raspberry-pi tts supertonic elevenlabs

摘要

Supertonic 3是一个99M参数的开源TTS模型，完全在设备上运行，在树莓派上击败了ElevenLabs，在笔记本电脑CPU上的性能是实时的167倍。

一个66M参数的模型刚刚在树莓派上击败了ElevenLabs。文本转语音多年来一直存在于云端。每个说出的字符都要消耗一次API调用和几分之一美分。 Supertonic 3是一个开源TTS模型，完全在设备上运行。无需网络，无需密钥，无需按字符计费。该模型有99M参数，以ONNX文件形式发布。它在笔记本电脑CPU上达到了实时速度的167倍。这意味着每秒大约可以合成1,263个字符的语音。较大的开源系统大约在55到287之间。设备端设计带来的能力： > 在树莓派上离线运行 > 在浏览器标签页中工作 > 处理电话号码和货币 > 无需预处理即可读取日期 > 内联标签表示大笑和呼吸此版本的语言覆盖范围从5种跃升至31种。公共接口与先前版本保持完全相同。

查看原文

查看缓存全文

缓存时间: 2026/05/22 17:56

一个6600万参数的模型就在树莓派上击败了ElevenLabs。

文本转语音多年来一直活在云端。

每说一个字都要花一次API调用和几分钱。

Supertonic 3 是一个完全在设备端运行的开源TTS模型。

无需网络、无需密钥、无需按字符计费。

该模型有9900万个参数，以ONNX文件形式发布。

在笔记本电脑CPU上，它的速度达到实时语音的167倍。

也就是说，每秒大约能合成1263个字符的语音。

而更大的开源系统通常只有55到287。

设备端设计带来的优势：

可在树莓派上离线运行能在浏览器标签页中工作支持电话号码和货币的朗读无需预处理即可读取日期支持笑声和呼吸声的内联标签

本次发布的语言覆盖从5种扩展到31种。

公共接口与上一版本保持一致。

相似文章

@akshay_pachaar: 这个TTS模型生成语音的速度比人耳听到快167倍。Supertonic 是一款通过ONNX实现跨平台推理的设备端TTS引擎…

X AI KOLs Following

Supertonic 是一款新的开源TTS引擎，通过ONNX在设备上运行，支持31种语言，在速度上超越ElevenLabs，即使在无GPU的树莓派上也能运行。

@FeitengLi: 99M 参数的 TTS 跑在 CPU 上，比 2B 大模型跑在 A100 上还快。 Supertone 新开源的 supertonic-3 ONNX Runtime，完全本地，浏览器能跑，手机能跑，树莓派也能跑。

X AI KOLs Timeline

Supertone released Supertonic 3, an open-source TTS model with 99M parameters that runs faster on CPU than a 2B model on A100, supporting 31 languages and ONNX Runtime for fully local inference.

@GoJun315: 本地跑的开源 TTS，把 ElevenLabs 干掉了。 Supertonic，完全跑在本地的语音合成模型，不联网、零 API 费用。 - 仅 99M 参数，M4 Pro 上比实时快 167 倍，树莓派也能跑 - 支持 31 种语言，覆盖…

X AI KOLs Timeline

Supertonic is a lightning-fast, on-device TTS model with 99M parameters, supporting 31 languages. It runs locally with no API costs, outperforms cloud TTS on accuracy for numbers, phone numbers, and technical terms, and can be installed via Python, Node.js, Rust, Go, and more.

@JafarNajafov：Supertonic 彻底击败了 ElevenLabs。一个完全在本地运行的文本转语音模型。无云端。无 API 密钥。无...

X AI KOLs Timeline

本文重点介绍了 Supertonic，这是一个开源的文本转语音模型，完全在本地设备运行。与 ElevenLabs 和 OpenAI 等基于云端的服务相比，它在速度和格式准确性方面均表现出色。

@rohanpaul_ai: 一个专为单一领域构建的小型模型，能否击败体积是其100倍的前沿通用模型？最近一篇论文显示……

X AI KOLs Following

PolyAI的Raven 3.5是一款较小的专业模型，在延迟低于300毫秒的情况下，在所有客户服务基准测试中超越了GPT-5和Claude Sonnet 4.6。该公司还推出了ADK和PolyPhone，以加速企业级语音AI部署。

相似文章

@akshay_pachaar: 这个TTS模型生成语音的速度比人耳听到快167倍。Supertonic 是一款通过ONNX实现跨平台推理的设备端TTS引擎…

@FeitengLi: 99M 参数的 TTS 跑在 CPU 上，比 2B 大模型跑在 A100 上还快。 Supertone 新开源的 supertonic-3 ONNX Runtime，完全本地，浏览器能跑，手机能跑，树莓派也能跑。

@GoJun315: 本地跑的开源 TTS，把 ElevenLabs 干掉了。 Supertonic，完全跑在本地的语音合成模型，不联网、零 API 费用。 - 仅 99M 参数，M4 Pro 上比实时快 167 倍，树莓派也能跑 - 支持 31 种语言，覆盖…

@JafarNajafov：Supertonic 彻底击败了 ElevenLabs。一个完全在本地运行的文本转语音模型。无云端。无 API 密钥。无...

@rohanpaul_ai: 一个专为单一领域构建的小型模型，能否击败体积是其100倍的前沿通用模型？最近一篇论文显示……

提交意见反馈