标签
MOSS TTS 1.5是一款具备语音克隆功能的新款文本转语音模型,可通过Hugging Face Space使用。由于其开放许可协议,被认为优于Fish Audio S2 Pro。
seshat-tts 是一款开源工具,可通过 OCR 或大语言模型提取文本,并使用 pocket-tts 进行本地合成,实现带语音克隆的实时游戏旁白。语音克隆在 RTX 2070 Super 上约需 10 秒,缓存后可在 CPU 上运行。
GitHub 开源项目 VoxCPM2 实现了无需参考音频的 AI 语音克隆,仅需一句话即可精准生成目标声线,已获 20K Star。
一名女子因骗子利用AI语音克隆技术模仿其女儿声音实施假绑架骗局而损失5400美元,凸显了AI诈骗日益严重的威胁。
MOSS-TTS v1.5是一个更新的开源文本转语音模型,具有改进的多语言合成(支持31种语言)、更稳定的零样本语音克隆以及显式的内联停顿控制。
GPT-SoVITS 是一款开源 AI 语音克隆工具,支持零样本(5秒声音)和少样本(1分钟训练)高保真声音克隆,跨语言推理,并自带完整 WebUI 工具链,在 GitHub 上已获 57.8k 星,成为语音克隆领域的领先开源项目。
X-Voice 是一个基于流匹配的多语言文本转语音系统,支持跨30种语言的零样本语音克隆,并提供开源代码、模型及演示。
OmniVoice Studio是一款免费的开源工具,可在本地将MP4视频配音成600种语言。它使用Whisper进行转录,从3秒音频中克隆声音,并利用Demucs分离背景音,从而无需ElevenLabs和HeyGen等付费订阅。
Voice-Pro 是一个整合了六个顶级开源模型(Whisper、Demucs、CosyVoice、F5-TTS 等)的网页工具,支持 YouTube 视频下载、去人声、转录、翻译、语音克隆和全自动配音,全程不到2分钟,100%本地运行且免费。
网易有道开源了子曰4大模型,27B参数,数理性能达到SOTA;其语音功能支持3秒跨语言声音克隆,14种语言且无口音问题,同时开源了全场景智能体龙虾。
阶跃星辰推出Step Plan订阅服务,月费6.99美元,整合了LLM、TTS、ASR、图像生成等多种AI模型,支持OpenAI SDK直连,可用于语音复刻、会议转写、AI播客生成等场景。
一位用户在vast.ai上对21款消费级GPU进行了基准测试,运行小型TTS模型(OmniVoice),显存峰值5GB,比较了相对于实时速度和RTX 3090的性能。
OpenAI悄然收购了语音克隆初创公司Weights.gg,并吸纳了其六人团队,很可能是为了移除未经授权的名人声音的公共目录,同时出于安全考虑限制自己的语音引擎。
一款名为Voicebox的开源应用替代了ElevenLabs和WisprFlow,支持本地语音克隆、多种TTS引擎和MCP服务器,可在多种硬件上运行,采用MIT许可证。
DramaBox是一个基于LTX-2.3微调的开源权重TTS模型,利用舞台提示(stage directions)生成富有表现力的语音,并支持通过10秒样本进行可选的语音克隆。
Scenema AI 发布了 Scenema Audio,一个开源的基于扩散模型的零样本富有表现力的语音克隆与语音生成模型,将情感表现与声音身份分离,使任何声音都能演绎任何情感。
OmniVoice Studio is an open-source desktop app that enables local voice cloning and cinematic video dubbing across 646 languages, fully offline with no API keys, positioning itself as a privacy-focused alternative to ElevenLabs.
Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型,支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。
清华大学 OpenBMB 发布了 VoxCPM2,这是一个拥有 200 亿参数的开源多语言 TTS 模型,支持无需 Tokenizer 的连续潜空间扩散自回归生成,具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。
mlx-audio v0.4.3 发布,新增 6 个 TTS 模型,包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice,同时带来并发请求与持续批处理等服务器改进,Voxtral Realtime 4-bit 模式速度提升约 3 倍,并精简了 Apple Silicon 上的依赖项。