@JafarNajafov:Supertonic 彻底击败了 ElevenLabs。一个完全在本地运行的文本转语音模型。无云端。无 API 密钥。无...

X AI KOLs Timeline 模型

摘要

本文重点介绍了 Supertonic,这是一个开源的文本转语音模型,完全在本地设备运行。与 ElevenLabs 和 OpenAI 等基于云端的服务相比,它在速度和格式准确性方面均表现出色。

Supertonic 彻底击败了 ElevenLabs。这是一个完全在您的设备上运行的文本转语音模型。无需云端支持。无需 API 密钥。无需按字符计费。拥有 2,700 个 GitHub Star。100% 开源。采用 MIT 许可协议。数据令人惊叹: → 在 M4 Pro 上比实时速度高出 167 倍 → 仅有 66M 参数 → 速度达 1,263 字符/秒,而 ElevenLabs Flash 仅为 287 → 速度达 1,048 字符/秒,而 OpenAI TTS-1 仅为 55 → 可在 Raspberry Pi 上运行。可在飞行模式下的电子书阅读器上运行。无需预处理即可正确读取货币、日期、电话号码和技术单位。ElevenLabs 做不到。OpenAI 做不到。Gemini 也做不到。支持 11 个平台和 5 种语言。Chrome 扩展程序可以在不到一秒的时间内将任何网页转换为音频。多年来,我一直看到本地模型在与云端 API 的竞争中失利。但这款模型没有输。云端 TTS 业务即将完蛋。
查看原文

相似文章

supertone-inc/supertonic

GitHub Trending (daily)

Supertonic 是一个开源的端内文本转语音(TTS)系统,专为本地推理设计,具有极低的开销。现已发布第 3 版,支持 31 种语言,并提升了准确性。

Supertone/supertonic-3

Hugging Face Models Trending

Supertonic 3 是一个轻量级的开权重文本转语音模型,专为快速设备端推理而设计,支持的语言扩展至 31 种,并提升了稳定性及表情标签支持。

在API中引入下一代音频模型

OpenAI Blog

OpenAI 为 API 引入了下一代音频模型,包括改进的语音转文本(gpt-4o-transcribe、gpt-4o-mini-transcribe)和可自定义的文本转语音模型,使开发者能够构建更智能、更具表现力的语音代理,在具有挑战性的场景中提升准确性。