@_albertgu: 为@cartesia团队推出Sonic 3.5感到无比自豪,它树立了TTS领域的新标杆。我个人…
摘要
Cartesia推出Sonic 3.5,这是一款支持42种语言的全新TTS模型,在Artificial Analysis Speech Arena排行榜上位居榜首。
查看缓存全文
缓存时间: 2026/05/22 23:54
非常自豪 @cartesia 团队发布了 Sonic 3.5,它树立了 TTS 领域的新标杆
我本人领导了该模型的技术方向;我们从基本原理出发,完全自主构建,其中包含多个与现有文献截然不同的重要创新点。看到研究假设得到验证,以及 Cartesia 强大的研究团队持续壮大,这让我倍感欣慰!
Artificial Analysis (@ArtificialAnlys): Cartesia 的 Sonic-3.5 在 Artificial Analysis 语音竞技场排行榜上夺得第一,超越了 Inworld Realtime TTS 1.5 Max 和 Google 的 Gemini 3.1 Flash TTS
Sonic-3.5 是 @cartesia 的最新 TTS 模型。它支持 42 种语言,涵盖 9 种印度语言,其
相似文章
@AlphaSignalAI:一个66M参数的模型刚刚在树莓派上击败了ElevenLabs。文本转语音多年来一直存在于云端。每个语音…
Supertonic 3是一个99M参数的开源TTS模型,完全在设备上运行,在树莓派上击败了ElevenLabs,在笔记本电脑CPU上的性能是实时的167倍。
@HarshalsinghCN: 我打造了一个开源的 Hinglish TTS,性能碾压市面所有模型。我没有任何研究背景。上周我 w…
一位开发者记录了构建开源 Hinglish 文本转语音系统的过程,该系统通过修复上游推理 bug 并增加轻量级预处理封装,实现了超越现有模型的效果,且在无需训练或 GPU 资源的情况下达到了高质量。
@akshay_pachaar: 这个TTS模型生成语音的速度比人耳听到快167倍。Supertonic 是一款通过ONNX实现跨平台推理的设备端TTS引擎…
Supertonic 是一款新的开源TTS引擎,通过ONNX在设备上运行,支持31种语言,在速度上超越ElevenLabs,即使在无GPU的树莓派上也能运行。
@MosiAI_Official: MOSS-TTS-v1.5 刚刚以 20.6K 下载量登上 Hugging Face 热门排行榜的 Text-to-Speech 分类第一。一个多语言、可控…
MOSS-TTS-v1.5 是一个多语言可控 TTS 模型,支持语音克隆和长文本生成,以 20.6K 下载量登上 Hugging Face 热门排行榜第一名。
@kwindla: https://x.com/kwindla/status/2062544580105359686
NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。