标签
Scenema AI 发布了 Scenema Audio,一个开源的基于扩散模型的零样本富有表现力的语音克隆与语音生成模型,将情感表现与声音身份分离,使任何声音都能演绎任何情感。
VITA-QinYu 是一个具有表现力的端到端口语语言模型,支持角色扮演和唱歌功能。该模型在 15.8 万小时的数据集上进行训练,在表现力和对话准确性方面均优于同类模型。
Scenema Audio 是一种零样本表现性语音克隆和语音生成模型,能够根据文本提示生成带有情感曲线、节奏和呼吸控制的语音。该模型基于音频扩散变换器,支持多语言生成、从10-20秒参考音频进行语音克隆,以及包含环境效果的场景感知音频。
MOSS-TTS-Nano是一个开源的多语言语音生成模型,仅0.1B参数,专为实时TTS设计,可直接在CPU上运行而无需GPU。由OpenMOSS团队和MOSI.AI发布,它支持简单的本地部署,用于Web服务和产品集成。