emotional-speech

标签

Cards List
#emotional-speech

ScenemaAI/scenema-audio

Hugging Face Models Trending · 2026-04-26 缓存

Scenema Audio 是一种零样本表现性语音克隆和语音生成模型,能够根据文本提示生成带有情感曲线、节奏和呼吸控制的语音。该模型基于音频扩散变换器,支持多语言生成、从10-20秒参考音频进行语音克隆,以及包含环境效果的场景感知音频。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈