标签
一次个人实验表明,为世界杯比赛构建的AI解说员在节奏较慢时效果真实,但快速比赛则会出现问题。
MOSS-TTS是模思公司推出的开源声音克隆模型,用户朗读少量文本即可克隆声音,随后可用克隆的声音生成任意语音,效果逼真。
本文讨论了语音作为AI智能体输出层未被充分利用的潜力,重点介绍了超越简单文本转语音的实际用例和工作流程挑战。
有道开源了1.3B参数的Confucius4-TTS模型,支持14种语言的零样本语音克隆与跨语言语音合成,速度快且效果优秀。
MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型,具有零样本语音克隆、原生流式传输,并支持31种语言,基于 Qwen3-4B 骨干网构建,通过 SGLang-Omni 提供。
MosiAI发布了MOSS-TTS Local Transformer v1.5,这是一款支持语音克隆、30多种语言以及48 kHz高质量输出的文本转语音模型。
Inflect-Nano,一个极致微小的463万参数文本转语音模型,已经发布。
Google的Gemini TTS现在支持流式音频生成,开发者可以构建即时响应的语音应用,无需等待完整音频输出。
VoxCPM2是OpenBMB开源的语音合成模型,采用无分词器的扩散自回归架构,支持30种语言、语音设计和可控语音克隆,仅需一句话即可克隆音色,或用文字创建全新声音,输出48kHz高质量音频,可商用。
Inflect-Nano-v1 是一个极小的英文文本转语音模型,总推理参数(包括其声码器)为 4.63M,专为本地高效的语音合成实验而设计。
Kokoro-82M是一个高度自然的文本转语音模型,拥有8200万参数和超过1100万次下载,代表了AI语音生成的重大进步。
Cartesia 发布了 Sonic-3.5(文本转语音)和 Ink-2(语音转文本),声称它们是语音助手领域排名第一的流式模型,有可能颠覆呼叫中心。
比较两个本地运行的移动TTS模型——Kokoro和Supertonic,质疑它们在初始演示之外的生产质量。
Zyphra released ZONOS2, an open-source MoE text-to-speech model trained on over 6 million hours of multilingual speech, supporting voice cloning and high-quality synthesis across many languages.
Zyphra 发布了 ZONOS2,一个开源的实时 TTS 模型,具有高保真语音克隆功能,采用 Apache 2.0 许可,可在基于 AMD 的 Zyphra Cloud 上使用。
ZONOS2 是 Zyphra 推出的一款新型文本转语音模型,基于超过600万小时的多语言语音数据训练,采用混合专家架构,实现高质量语音克隆和低延迟。支持30多种语言,并提供高性能推理服务器。
在 iOS 27 模拟器文件中发现了 WaveRNN 和 FastSpeech2 模型,表明它们用于 Siri 的文本转语音,同时还有一个用于音乐会排名的逻辑回归模型。
本文对CosyVoice3文本转语音语言模型应用稀疏自编码器,发现可解释的特征,这些特征可被引导以控制笑声、说话者性别和语速等属性,同时保留内容。
介绍了一个开源的语音合成模型,20亿参数、200万小时训练,支持30种语言和9种中国方言,可用自然语言描述音色,3秒录音即可克隆声音,音质达48kHz,Apache-2.0协议免费商用。