@hisevenih: Ai语音圈直接炸锅了。 这个 GitHub 开源黑科技,把 AI 语音做到了离谱的程度, 真正实现了:一句话,一个声音。 记住这个项目名字:VoxCPM2 它在 GitHub 已经拿下了 20K Star。 最夸张的是, 它甚至无需参考音…

X AI KOLs Timeline 模型

摘要

GitHub 开源项目 VoxCPM2 实现了无需参考音频的 AI 语音克隆,仅需一句话即可精准生成目标声线,已获 20K Star。

Ai语音圈直接炸锅了。 这个 GitHub 开源黑科技,把 AI 语音做到了离谱的程度, 真正实现了:一句话,一个声音。 记住这个项目名字:VoxCPM2 它在 GitHub 已经拿下了 20K Star。 最夸张的是, 它甚至无需参考音频, 只需要告诉 AI 你的想法, 它就能精准生成你想要的声线。 https://t.co/2GvQ4K8m3I
查看原文
查看缓存全文

缓存时间: 2026/05/29 10:02

Ai语音圈直接炸锅了。 这个 GitHub 开源黑科技,把 AI 语音做到了离谱的程度, 真正实现了:一句话,一个声音。

记住这个项目名字:VoxCPM2 它在 GitHub 已经拿下了 20K Star。

最夸张的是, 它甚至无需参考音频, 只需要告诉 AI 你的想法, 它就能精准生成你想要的声线。 https://t.co/2GvQ4K8m3I

相似文章

@denziideng: 又发现一个AI语音克隆“降维打击”…… 之前分享的 CosyVoice 3秒可克隆,觉得已经够吓人了,结果今天这个更要命,随便录了1分钟自己的声音训练后,它直接把声线、语气、情感、呼吸、停顿全部复刻,简直像本人灵魂附体! 阿里达摩院的 C…

X AI KOLs Timeline

GPT-SoVITS 是一款开源 AI 语音克隆工具,支持零样本(5秒声音)和少样本(1分钟训练)高保真声音克隆,跨语言推理,并自带完整 WebUI 工具链,在 GitHub 上已获 57.8k 星,成为语音克隆领域的领先开源项目。

@Honcia13: 开源TTS直接卷疯了!园区诈骗又有新武器? 清华 OpenBMB 刚刚放出 VoxCPM2: 200亿参数 + 200万小时多语言数据训练,48kHz录音棚级音质! 最狠的是——完全不用Tokenizer,直接在连续潜空间做扩散自回归,细…

X AI KOLs Timeline

清华大学 OpenBMB 发布了 VoxCPM2,这是一个拥有 200 亿参数的开源多语言 TTS 模型,支持无需 Tokenizer 的连续潜空间扩散自回归生成,具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。

@uniswap12: 微软开源了一个语音 AI,60 分钟长音频一次转写,4 个人同时说话都能搞定 VibeVoice,微软开源,24.8k star,今天才知道这个。录音一键转文字这件事,我之前一直用 Whisper,但它处理长会议录音经常超时,多人说话识别…

X AI KOLs Timeline

微软开源了语音AI框架VibeVoice,支持60分钟长音频一次性转写、多说话人分离和时间戳标注,同时提供多角色TTS合成能力,底层基于Qwen2.5并配有0.5B轻量实时版本,已在GitHub获得24.8k星标。

@MaxForAI: 如果你在做语音Agent,你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了:Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建,目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。

@yhslgg: 老杨再特么分享一个宝藏开源工具——KrillinAI,GitHub 10000 星,做多语言音视频内容的绝对值得看! 一句话:从视频下载到字幕翻译、AI配音、视频合成,整条链路全包,还能自动生成平台封面,B站、抖音、小红书、YouTube…

X AI KOLs Timeline

KrillinAI 是一款开源工具,整合了视频下载、字幕翻译、AI配音、视频合成全流程,支持上下文感知翻译、语音克隆、自动布局和封面生成,兼容多种AI模型,适合多语言音视频内容创作与分发。