标签
一个泄露版 ChatGPT 搭载了 Bidi-1 语音模式,其声音逼真得令人不安,超过了此前的泄露版本。
Kokoro-82M是一个高度自然的文本转语音模型,拥有8200万参数和超过1100万次下载,代表了AI语音生成的重大进步。
介绍VoxCPM2,一个完全免费商用、开源的多语言语音合成模型,支持声音设计、克隆及48kHz高质量输出,在GitHub趋势榜第一。
ElevenLabs 与斯坦·李宇宙签署协议,创建斯坦·李的声音和形象的AI克隆,用于数字客串、有声读物和一个读书俱乐部系列,引发了关于同意和剥削的伦理辩论。
GitHub 开源项目 VoxCPM2 实现了无需参考音频的 AI 语音克隆,仅需一句话即可精准生成目标声线,已获 20K Star。
谷歌宣布推出 Gmail Live,这是一种基于 AI 的语音模式,可通过 Gemini 搜索和操作收件箱。同时,Docs 和 Keep 也将推出类似的语音功能,将于 2026 年夏季向 AI Pro/Ultra 订阅用户开放。
Vapi_ai宣布完成由Peak XV Partners领投的5000万美元B轮融资,总融资额达7200万美元,重点在于AI语音通话的工程能力。
清华大学 OpenBMB 发布了 VoxCPM2,这是一个拥有 200 亿参数的开源多语言 TTS 模型,支持无需 Tokenizer 的连续潜空间扩散自回归生成,具备 48kHz 录音棚级音质和强大的声音克隆与设计能力。