标签
RedNote发布了dots.tts,一个2B参数的开源文本转语音模型,支持零样本语音克隆和48kHz合成。
Dots.tts 是来自小红书(RedNote)的新TTS模型,拥有2B参数,遵循Apache 2.0许可,采用完全连续架构(无编解码器令牌),支持48kHz合成和零样本语音克隆。
介绍VoxCPM2,一个完全免费商用、开源的多语言语音合成模型,支持声音设计、克隆及48kHz高质量输出,在GitHub趋势榜第一。
dots.tts 提出了一个拥有 2B 参数的连续自回归文本转语音 (TTS) 模型,基于多语言数据进行训练,在 Seed-TTS-Eval 等基准测试上取得了最先进的性能,并通过 CFG-aware MeanFlow 蒸馏实现了低延迟流式生成。该模型、代码和检查点均以 Apache 2.0 许可证发布。
Higgs Audio v3 是一个 4B 参数的 TTS 模型,专为语音聊天应用设计,支持 100 种语言并具备内联控制能力。
微软发布了 MAI-Voice-2,这是一款支持 15 种语言语音克隆的表现力丰富的文本转语音系统。
ElevenLabs 引入了呼叫您的 Hermes Agent 的功能,通过他们的平台实现与AI代理的语音交互。
微软开源了语音AI框架VibeVoice,支持60分钟长音频一次性转写、多说话人分离和时间戳标注,同时提供多角色TTS合成能力,底层基于Qwen2.5并配有0.5B轻量实时版本,已在GitHub获得24.8k星标。
对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。
Miso One 是一个开源的8B参数文本转语音模型,具备真实情感范围和110毫秒延迟,专为配音工作设计。
MOSS-TTS-v1.5 是一个多语言可控 TTS 模型,支持语音克隆和长文本生成,以 20.6K 下载量登上 Hugging Face 热门排行榜第一名。
WavTTS 提出了首个使用流匹配和扩散变换器的原始波形生成式文本转语音模型,其性能可与潜在空间扩散模型相媲美,同时避免了压缩表示导致的信息损失。
NVIDIA 在 Hugging Face 上发布了 Kokoro TTS 模型的优化 ONNX 版本。这款拥有 8200 万参数的模型轻量、快速,且可用于商业用途。
SwanVoice 是一种零样本文本转语音模型,专为富有表现力的长文本独白和对话合成而设计,结合了 VAE、流匹配 DiT 和扩散后训练,在丰富度和层次感得分上均优于现有基线模型。
GitHub 开源项目 VoxCPM2 实现了无需参考音频的 AI 语音克隆,仅需一句话即可精准生成目标声线,已获 20K Star。
MOSS-TTS v1.5是一个更新的开源文本转语音模型,具有改进的多语言合成(支持31种语言)、更稳定的零样本语音克隆以及显式的内联停顿控制。
GPT-SoVITS 是一款开源 AI 语音克隆工具,支持零样本(5秒声音)和少样本(1分钟训练)高保真声音克隆,跨语言推理,并自带完整 WebUI 工具链,在 GitHub 上已获 57.8k 星,成为语音克隆领域的领先开源项目。
X-Voice 是一个基于流匹配的多语言文本转语音系统,支持跨30种语言的零样本语音克隆,并提供开源代码、模型及演示。
Abogen 是一个开源工具,可将 ePub、PDF 等文档一键转为高质量音频,并自动生成同步字幕,支持语音混合器和多种部署方式。
一个用户创建的用于比较本地TTS工具的基准测试,包含Windows和Mac的结果,Linux测试待完成。包含HTML结果页面和GitHub仓库。