Higgs Audio v3 TTS 4B。专为语音聊天打造。支持100种语言和内联控制。

Reddit r/LocalLLaMA 2026/06/04 22:26 模型

text-to-speech voice-synthesis multilingual audio-ai real-time

摘要

Higgs Audio v3 是一个 4B 参数的 TTS 模型，专为语音聊天应用设计，支持 100 种语言并具备内联控制能力。

暂无内容

查看原文

相似文章

@Prince_Canuma: mlx-audio v0.4.3 正式发布！模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型：Higgs Audio v2（声音克隆）…

X AI KOLs Timeline

mlx-audio v0.4.3 发布，新增 6 个 TTS 模型，包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice，同时带来并发请求与持续批处理等服务器改进，Voxtral Realtime 4-bit 模式速度提升约 3 倍，并精简了 Apple Silicon 上的依赖项。

Aratako/Irodori-TTS-500M-v3

Hugging Face Models Trending

Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型，支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。

Gemini 3.1 Flash TTS

Simon Willison's Blog

Google 发布了 Gemini 3.1 Flash TTS，这是一个新的文本转语音模型，可通过 Gemini API 访问，支持基于提示的高级控制，以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频，包括多说话人对话和特定角色的语音表演。

OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face

Reddit r/LocalLLaMA

MOSS-TTS v1.5是一个更新的开源文本转语音模型，具有改进的多语言合成（支持31种语言）、更稳定的零样本语音克隆以及显式的内联停顿控制。

Qwen3-TTS 技术报告

Papers with Code Trending

Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型，具备语音克隆和可控生成能力，采用双轨 LM 架构和专用分词器以实现低延迟流式处理。

提交意见反馈