emotional-speech

#emotional-speech

ScenemaAI/scenema-audio

Hugging Face Models Trending ↗ · 2026-04-26 缓存

Scenema Audio 是一种零样本表现性语音克隆和语音生成模型，能够根据文本提示生成带有情感曲线、节奏和呼吸控制的语音。该模型基于音频扩散变换器，支持多语言生成、从10-20秒参考音频进行语音克隆，以及包含环境效果的场景感知音频。

0 人收藏 0 人点赞