@AlphaSignalAI:一个66M参数的模型刚刚在树莓派上击败了ElevenLabs。文本转语音多年来一直存在于云端。每个语音…

X AI KOLs Timeline 模型

摘要

Supertonic 3是一个99M参数的开源TTS模型,完全在设备上运行,在树莓派上击败了ElevenLabs,在笔记本电脑CPU上的性能是实时的167倍。

一个66M参数的模型刚刚在树莓派上击败了ElevenLabs。 文本转语音多年来一直存在于云端。 每个说出的字符都要消耗一次API调用和几分之一美分。 Supertonic 3是一个开源TTS模型,完全在设备上运行。 无需网络,无需密钥,无需按字符计费。 该模型有99M参数,以ONNX文件形式发布。 它在笔记本电脑CPU上达到了实时速度的167倍。 这意味着每秒大约可以合成1,263个字符的语音。 较大的开源系统大约在55到287之间。 设备端设计带来的能力: > 在树莓派上离线运行 > 在浏览器标签页中工作 > 处理电话号码和货币 > 无需预处理即可读取日期 > 内联标签表示大笑和呼吸 此版本的语言覆盖范围从5种跃升至31种。 公共接口与先前版本保持完全相同。
查看原文
查看缓存全文

缓存时间: 2026/05/22 17:56

一个6600万参数的模型就在树莓派上击败了ElevenLabs。

文本转语音多年来一直活在云端。

每说一个字都要花一次API调用和几分钱。

Supertonic 3 是一个完全在设备端运行的开源TTS模型。

无需网络、无需密钥、无需按字符计费。

该模型有9900万个参数,以ONNX文件形式发布。

在笔记本电脑CPU上,它的速度达到实时语音的167倍。

也就是说,每秒大约能合成1263个字符的语音。

而更大的开源系统通常只有55到287。

设备端设计带来的优势:

可在树莓派上离线运行 能在浏览器标签页中工作 支持电话号码和货币的朗读 无需预处理即可读取日期 支持笑声和呼吸声的内联标签

本次发布的语言覆盖从5种扩展到31种。

公共接口与上一版本保持一致。

相似文章

@GoJun315: 本地跑的开源 TTS,把 ElevenLabs 干掉了。 Supertonic,完全跑在本地的语音合成模型,不联网、零 API 费用。 - 仅 99M 参数,M4 Pro 上比实时快 167 倍,树莓派也能跑 - 支持 31 种语言,覆盖…

X AI KOLs Timeline

Supertonic is a lightning-fast, on-device TTS model with 99M parameters, supporting 31 languages. It runs locally with no API costs, outperforms cloud TTS on accuracy for numbers, phone numbers, and technical terms, and can be installed via Python, Node.js, Rust, Go, and more.