voice-cloning

#voice-cloning

这个新出的MOSS TTS 1.5语音克隆功能非常厉害

Reddit r/LocalLLaMA ↗ · 2026-05-30

MOSS TTS 1.5是一款具备语音克隆功能的新款文本转语音模型，可通过Hugging Face Space使用。由于其开放许可协议，被认为优于Fish Audio S2 Pro。

0 人收藏 0 人点赞

#voice-cloning

seshat-tts：一款支持语音克隆的本地实时游戏旁白工具

Reddit r/ArtificialInteligence ↗ · 2026-05-29

seshat-tts 是一款开源工具，可通过 OCR 或大语言模型提取文本，并使用 pocket-tts 进行本地合成，实现带语音克隆的实时游戏旁白。语音克隆在 RTX 2070 Super 上约需 10 秒，缓存后可在 CPU 上运行。

0 人收藏 0 人点赞

#voice-cloning

@hisevenih: Ai语音圈直接炸锅了。这个 GitHub 开源黑科技，把 AI 语音做到了离谱的程度，真正实现了：一句话，一个声音。记住这个项目名字：VoxCPM2 它在 GitHub 已经拿下了 20K Star。最夸张的是，它甚至无需参考音…

X AI KOLs Timeline ↗ · 2026-05-28 缓存

GitHub 开源项目 VoxCPM2 实现了无需参考音频的 AI 语音克隆，仅需一句话即可精准生成目标声线，已获 20K Star。

0 人收藏 0 人点赞

#voice-cloning

女子遭诈骗损失数千美元，骗子疑似利用AI模仿女儿声音

Reddit r/ArtificialInteligence ↗ · 2026-05-26 缓存

一名女子因骗子利用AI语音克隆技术模仿其女儿声音实施假绑架骗局而损失5400美元，凸显了AI诈骗日益严重的威胁。

0 人收藏 0 人点赞

#voice-cloning

OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face

Reddit r/LocalLLaMA ↗ · 2026-05-26 缓存

MOSS-TTS v1.5是一个更新的开源文本转语音模型，具有改进的多语言合成（支持31种语言）、更稳定的零样本语音克隆以及显式的内联停顿控制。

0 人收藏 0 人点赞

#voice-cloning

@denziideng: 又发现一个AI语音克隆“降维打击”…… 之前分享的 CosyVoice 3秒可克隆，觉得已经够吓人了，结果今天这个更要命，随便录了1分钟自己的声音训练后，它直接把声线、语气、情感、呼吸、停顿全部复刻，简直像本人灵魂附体！阿里达摩院的 C…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

GPT-SoVITS 是一款开源 AI 语音克隆工具，支持零样本（5秒声音）和少样本（1分钟训练）高保真声音克隆，跨语言推理，并自带完整 WebUI 工具链，在 GitHub 上已获 57.8k 星，成为语音克隆领域的领先开源项目。

0 人收藏 0 人点赞

#voice-cloning

@tom_doerr: 零样本语音克隆支持30种语言 https://github.com/sunnyxrxrx/X-Voice…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

X-Voice 是一个基于流匹配的多语言文本转语音系统，支持跨30种语言的零样本语音克隆，并提供开源代码、模型及演示。

0 人收藏 0 人点赞

#voice-cloning

@Fluyeporlaweb: ElevenLabs每年花费700美元。HeyGen又是700美元。有人刚刚发布了本地配音研究，彻底取代了这两种订阅…

X AI KOLs Timeline ↗ · 2026-05-24 缓存

OmniVoice Studio是一款免费的开源工具，可在本地将MP4视频配音成600种语言。它使用Whisper进行转录，从3秒音频中克隆声音，并利用Demucs分离背景音，从而无需ElevenLabs和HeyGen等付费订阅。

0 人收藏 0 人点赞

#voice-cloning

@noahduck283: 可以下载任何 YouTube 视频、干净地去除人声、进行转录、翻译成 100 多种语言、克隆原声并完成全自动配音的工具。全程不到 2 分钟。100% 本地运行。免费把六个顶级开源模型缝进了一个网页"一键下载、去人声、转录、翻译、配音"的…

X AI KOLs Timeline ↗ · 2026-05-22 缓存

Voice-Pro 是一个整合了六个顶级开源模型（Whisper、Demucs、CosyVoice、F5-TTS 等）的网页工具，支持 YouTube 视频下载、去人声、转录、翻译、语音克隆和全自动配音，全程不到2分钟，100%本地运行且免费。

1 人收藏 0 人点赞

#voice-cloning

@lxfater: 网易有道开源了子曰4大模型，27B参数内，数理 SOTA 但真正让我觉得有趣的是它那个语音功能！！克隆个声音不稀奇，ElevenLabs 早能做但它们都有个通病，跨语种会串口音拿你的中文声音去说日语，它带着一口中国腔，一听就是外国人…

X AI KOLs Timeline ↗ · 2026-05-22 缓存

网易有道开源了子曰4大模型，27B参数，数理性能达到SOTA；其语音功能支持3秒跨语言声音克隆，14种语言且无口音问题，同时开源了全场景智能体龙虾。

0 人收藏 0 人点赞

#voice-cloning

@gkxspace: 我每月 AI 订阅两三千，其中有些是TTS、ASR之类的，主流的几家都挺贵，API协议也都不一样我一直在想有没有可以一个套餐做到：语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码可算找到了一个活菩萨，阶跃星辰的 S…

X AI KOLs Timeline ↗ · 2026-05-20 缓存

阶跃星辰推出Step Plan订阅服务，月费6.99美元，整合了LLM、TTS、ASR、图像生成等多种AI模型，支持OpenAI SDK直连，可用于语音复刻、会议转写、AI播客生成等场景。

0 人收藏 0 人点赞

#voice-cloning

21款GPU运行小型TTS模型基准测试（显存峰值：5GB）

Reddit r/LocalLLaMA ↗ · 2026-05-18

一位用户在vast.ai上对21款消费级GPU进行了基准测试，运行小型TTS模型（OmniVoice），显存峰值5GB，比较了相对于实时速度和RTX 3090的性能。

0 人收藏 0 人点赞

#voice-cloning

OpenAI悄然收购语音克隆初创公司Weights.gg，然后整合了团队（3分钟阅读）

TLDR AI ↗ · 2026-05-18 缓存

OpenAI悄然收购了语音克隆初创公司Weights.gg，并吸纳了其六人团队，很可能是为了移除未经授权的名人声音的公共目录，同时出于安全考虑限制自己的语音引擎。

0 人收藏 0 人点赞

#voice-cloning

@HowToAI_: ElevenLabs刚刚失去了护城河有人开源了一款单一应用，可替代ElevenLabs和WisprFlow，且100%本地运行…

X AI KOLs Timeline ↗ · 2026-05-17 缓存

一款名为Voicebox的开源应用替代了ElevenLabs和WisprFlow，支持本地语音克隆、多种TTS引擎和MCP服务器，可在多种硬件上运行，采用MIT许可证。

0 人收藏 0 人点赞

#voice-cloning

DramaBox：基于舞台提示构建的开源权重TTS模型

Reddit r/ArtificialInteligence ↗ · 2026-05-14 缓存

DramaBox是一个基于LTX-2.3微调的开源权重TTS模型，利用舞台提示（stage directions）生成富有表现力的语音，并支持通过10秒样本进行可选的语音克隆。

0 人收藏 0 人点赞

#voice-cloning

Scenema Audio：零样本富有表现力的语音克隆与语音生成 [N]

Reddit r/MachineLearning ↗ · 2026-05-13

Scenema AI 发布了 Scenema Audio，一个开源的基于扩散模型的零样本富有表现力的语音克隆与语音生成模型，将情感表现与声音身份分离，使任何声音都能演绎任何情感。

0 人收藏 0 人点赞

#voice-cloning

@GitTrend0x: 卧槽兄弟们本地跑语音克隆+电影级视频配音，直接支持646种语言，完全离线、无API密钥、无需联网，ElevenLabs直接被干翻 https://github.com/debpalash/OmniVoice-Studio… 这波开源神器…

X AI KOLs Timeline ↗ · 2026-05-13 缓存

OmniVoice Studio is an open-source desktop app that enables local voice cloning and cinematic video dubbing across 646 languages, fully offline with no API keys, positioning itself as a privacy-focused alternative to ElevenLabs.

0 人收藏 0 人点赞

#voice-cloning

Aratako/Irodori-TTS-500M-v3

Hugging Face Models Trending ↗ · 2026-05-12 缓存

Irodori-TTS-500M-v3是一个基于Rectified Flow Diffusion Transformer的日语TTS模型，支持零样本语音克隆以及独特的基于表情符号的风格/音效控制。

0 人收藏 0 人点赞

#voice-cloning

@Honcia13: 开源TTS直接卷疯了！园区诈骗又有新武器？清华 OpenBMB 刚刚放出 VoxCPM2： 200亿参数 + 200万小时多语言数据训练，48kHz录音棚级音质！最狠的是——完全不用Tokenizer，直接在连续潜空间做扩散自回归，细…

X AI KOLs Timeline ↗ · 2026-05-12 缓存

清华大学 OpenBMB 发布了 VoxCPM2，这是一个拥有 200 亿参数的开源多语言 TTS 模型，支持无需 Tokenizer 的连续潜空间扩散自回归生成，具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。

0 人收藏 0 人点赞

#voice-cloning

@Prince_Canuma: mlx-audio v0.4.3 正式发布！模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型：Higgs Audio v2（声音克隆）…

X AI KOLs Timeline ↗ · 2026-05-09 缓存

mlx-audio v0.4.3 发布，新增 6 个 TTS 模型，包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice，同时带来并发请求与持续批处理等服务器改进，Voxtral Realtime 4-bit 模式速度提升约 3 倍，并精简了 Apple Silicon 上的依赖项。

1 人收藏 1 人点赞

voice-cloning

提交意见反馈