@JafarNajafov:Supertonic 彻底击败了 ElevenLabs。一个完全在本地运行的文本转语音模型。无云端。无 API 密钥。无...
摘要
本文重点介绍了 Supertonic,这是一个开源的文本转语音模型,完全在本地设备运行。与 ElevenLabs 和 OpenAI 等基于云端的服务相比,它在速度和格式准确性方面均表现出色。
Supertonic 彻底击败了 ElevenLabs。这是一个完全在您的设备上运行的文本转语音模型。无需云端支持。无需 API 密钥。无需按字符计费。拥有 2,700 个 GitHub Star。100% 开源。采用 MIT 许可协议。数据令人惊叹:
→ 在 M4 Pro 上比实时速度高出 167 倍
→ 仅有 66M 参数
→ 速度达 1,263 字符/秒,而 ElevenLabs Flash 仅为 287
→ 速度达 1,048 字符/秒,而 OpenAI TTS-1 仅为 55
→ 可在 Raspberry Pi 上运行。可在飞行模式下的电子书阅读器上运行。无需预处理即可正确读取货币、日期、电话号码和技术单位。ElevenLabs 做不到。OpenAI 做不到。Gemini 也做不到。支持 11 个平台和 5 种语言。Chrome 扩展程序可以在不到一秒的时间内将任何网页转换为音频。多年来,我一直看到本地模型在与云端 API 的竞争中失利。但这款模型没有输。云端 TTS 业务即将完蛋。
相似文章
supertone-inc/supertonic
Supertonic 是一个开源的端内文本转语音(TTS)系统,专为本地推理设计,具有极低的开销。现已发布第 3 版,支持 31 种语言,并提升了准确性。
Supertone/supertonic-3
Supertonic 3 是一个轻量级的开权重文本转语音模型,专为快速设备端推理而设计,支持的语言扩展至 31 种,并提升了稳定性及表情标签支持。
@HarshalsinghCN: 我打造了一个开源的 Hinglish TTS,性能碾压市面所有模型。我没有任何研究背景。上周我 w…
一位开发者记录了构建开源 Hinglish 文本转语音系统的过程,该系统通过修复上游推理 bug 并增加轻量级预处理封装,实现了超越现有模型的效果,且在无需训练或 GPU 资源的情况下达到了高质量。
在API中引入下一代音频模型
OpenAI 为 API 引入了下一代音频模型,包括改进的语音转文本(gpt-4o-transcribe、gpt-4o-mini-transcribe)和可自定义的文本转语音模型,使开发者能够构建更智能、更具表现力的语音代理,在具有挑战性的场景中提升准确性。
@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai
来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型(sonnet 4.6、gemini 3 flash、gpt 5.4 mini)。