标签
孩之宝旗下《小猪佩奇》因要求儿童演员将声音授权用于AI而遭强烈反对,青年演员协会经纪人也发出公开信谴责此举。
一条推文列出了2025年6月GitHub上增长最快的10个仓库,涵盖AI工作空间、token压缩、智能体提示优化、视频生成、语音克隆、股票分析、研究智能体等。
MOSS-TTS是模思公司推出的开源声音克隆模型,用户朗读少量文本即可克隆声音,随后可用克隆的声音生成任意语音,效果逼真。
有道开源了1.3B参数的Confucius4-TTS模型,支持14种语言的零样本语音克隆与跨语言语音合成,速度快且效果优秀。
MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型,具有零样本语音克隆、原生流式传输,并支持31种语言,基于 Qwen3-4B 骨干网构建,通过 SGLang-Omni 提供。
MosiAI发布了MOSS-TTS Local Transformer v1.5,这是一款支持语音克隆、30多种语言以及48 kHz高质量输出的文本转语音模型。
VoxCPM2是OpenBMB开源的语音合成模型,采用无分词器的扩散自回归架构,支持30种语言、语音设计和可控语音克隆,仅需一句话即可克隆音色,或用文字创建全新声音,输出48kHz高质量音频,可商用。
Zyphra released ZONOS2, an open-source MoE text-to-speech model trained on over 6 million hours of multilingual speech, supporting voice cloning and high-quality synthesis across many languages.
Zyphra 发布了 ZONOS2,一个开源的实时 TTS 模型,具有高保真语音克隆功能,采用 Apache 2.0 许可,可在基于 AMD 的 Zyphra Cloud 上使用。
ZONOS2 是 Zyphra 推出的一款新型文本转语音模型,基于超过600万小时的多语言语音数据训练,采用混合专家架构,实现高质量语音克隆和低延迟。支持30多种语言,并提供高性能推理服务器。
Sumsub的这篇文章探讨了针对创作者经济的AI驱动深度伪造欺诈日益增长的威胁,并提供了一份关于检测和防护方法的指南,以应对冒充和语音克隆诈骗。
介绍了一个开源的语音合成模型,20亿参数、200万小时训练,支持30种语言和9种中国方言,可用自然语言描述音色,3秒录音即可克隆声音,音质达48kHz,Apache-2.0协议免费商用。
RedNote发布了dots.tts,一个2B参数的开源文本转语音模型,支持零样本语音克隆和48kHz合成。
Dots.tts 是来自小红书(RedNote)的新TTS模型,拥有2B参数,遵循Apache 2.0许可,采用完全连续架构(无编解码器令牌),支持48kHz合成和零样本语音克隆。
介绍VoxCPM2,一个完全免费商用、开源的多语言语音合成模型,支持声音设计、克隆及48kHz高质量输出,在GitHub趋势榜第一。
对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。
KrillinAI 是一款开源工具,整合了视频下载、字幕翻译、AI配音、视频合成全流程,支持上下文感知翻译、语音克隆、自动布局和封面生成,兼容多种AI模型,适合多语言音视频内容创作与分发。
精心挑选的10个开源项目列表,提供强大的AI和开发者功能,常常取代昂贵的商业软件——包括AI交易代理、多模型聊天界面、视频生成、语音克隆等。
MOSS-TTS-v1.5 是一个多语言可控 TTS 模型,支持语音克隆和长文本生成,以 20.6K 下载量登上 Hugging Face 热门排行榜第一名。