标签
一位开发者构建了一个名为CYBER的JARVIS风格个人助手,具备唤醒词激活、通过XTTS v2的本地语音克隆、视觉模式以及LLM生成的系统命令,全部在本地运行,无需云端依赖。
上海交通大学开源了 F5-TTS 语音生成模型,该模型基于 10 万小时数据训练,支持中英多语言合成及 Zero-shot 声音克隆,并允许商用。
Scenema Audio 是一种零样本表现性语音克隆和语音生成模型,能够根据文本提示生成带有情感曲线、节奏和呼吸控制的语音。该模型基于音频扩散变换器,支持多语言生成、从10-20秒参考音频进行语音克隆,以及包含环境效果的场景感知音频。
一篇个人随笔,回顾过去三年AI的飞速演进:从早期ChatGPT和GPT-4的配额,到BabyAGI、DALL·E、语音克隆的登场。
Dramabox 是 Resemble AI 开发的一个富有表现力的文本转语音模型,通过提示驱动控制来实现说话人身份、情感和表达方式,并可选地使用 10 秒参考音频进行声音克隆。该模型基于 LTX-2.3 音频扩散变换器构建,已在 Hugging Face 上开源。
OmniVoice 是一款大规模多语言零样本文本转语音模型,支持超过 600 种语言,基于扩散语言模型架构构建,具备快速推理和语音克隆能力。
Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型,具备语音克隆和可控生成能力,采用双轨 LM 架构和专用分词器以实现低延迟流式处理。
IndexTTS 是一个增强型文本转语音系统,结合了 XTTS 和 Tortoise 模型,采用混合字符-拼音建模和优化的向量量化,在自然度、发音可控性和推理速度上优于现有的开源 TTS 系统。
Voicebox 是一个开源的、本地优先的 AI 语音工作室,支持语音克隆、语音生成、听写和 AI 代理集成,提供隐私保护和多引擎 TTS 支持。
OpenBMB发布VoxCPM2,一个2B参数的无分词器TTS模型,基于超过200万小时的多语言语音数据训练,支持30种语言、语音设计、可控克隆和48kHz输出。