ScenemaAI/scenema-audio

Hugging Face Models Trending 模型

摘要

Scenema Audio 是一种零样本表现性语音克隆和语音生成模型,能够根据文本提示生成带有情感曲线、节奏和呼吸控制的语音。该模型基于音频扩散变换器,支持多语言生成、从10-20秒参考音频进行语音克隆,以及包含环境效果的场景感知音频。

任务:文本转语音 标签:scenema-audio, 音频生成, 扩散模型, 文本到音频, 语音克隆, 语音生成, 表现性语音, 配音, 文本转语音, en, de, fr, es, it, pt, ja, zh, ko, ru, ar, hi, sw, 许可证:其他, 地区:美国
查看原文
查看缓存全文

缓存时间: 2026/05/15 18:19

ScenemaAI/scenema-audio · Hugging Face 来源: https://huggingface.co/ScenemaAI/scenema-audio 零样本 expressive 语音克隆与语音生成。 访问 scenema.ai/audio 收听所有演示并亲自尝试。(https://scenema.ai/audio) 在 YouTube 观看演示视频 (https://youtu.be/VnEQ_ImOaAc) 所有现有的文本到语音系统都将词语转化为声音,但没有一个能真正做到位。Scenema Audio 生成的语音带有意图、节奏、呼吸控制以及一次生成内发生转变的情感弧线,这一切都来自一个文本提示,它不仅描述了说什么,还描述了怎么说。它构建于从 LTX 2.3 (https://github.com/Lightricks/LTX-2) 的 220 亿参数视听模型中提取的音频扩散变压器之上,学习了人们在真实场景中的真实声音:愤怒、大笑、低语、哭泣、精疲力竭、恐惧。

https://huggingface.co/ScenemaAI/scenema-audio#capabilities 能力

  • 情感表演: 愤怒、悲伤、喜悦、恐惧、疲惫。通过动作标签可在单次生成内实现情感状态转变。
  • 儿童声音: 六岁孩子、幼儿、青少年。自然的发声,而非音高变换的成人声音。
  • 场景感知音频: 描述环境,模型会生成带有雨声、雷声、人群或任何环境音频的语音。
  • 零样本语音克隆: 提供 10-20 秒带有一定情感变化的参考音频。模型将语音身份迁移到任何情感表现上。无需微调,无需注册。
  • 长篇幅叙述: 通过自动拆分文本并保持各段语音连续性,生成任意长度的音频。
  • 多语言: 英语、德语、法语、西班牙语、意大利语、葡萄牙语、日语、中文、韩语、俄语、阿拉伯语、印地语、斯瓦希里语。

https://huggingface.co/ScenemaAI/scenema-audio#model-checkpoints 模型检查点

文件大小描述
scenema-audio-transformer.safetensors9.8 GB音频扩散变压器 (bf16)
scenema-audio-transformer-int8.safetensors4.9 GB音频扩散变压器 (INT8,质量相同)
scenema-audio-pipeline.safetensors6.7 GB音频 VAE 解码器 + 声码器 + 文本投影
scenema-audio-vae-encoder.safetensors42.7 MB用于参考语音编码的音频 VAE 编码器

https://huggingface.co/ScenemaAI/scenema-audio#quick-start 快速开始

git clone https://github.com/ScenemaAI/scenema-audio.git
cd scenema-audio
export HF_TOKEN=your_huggingface_token
docker compose up

模型在首次启动时下载(约 38 GB)并缓存在 Docker 卷中。请参阅 GitHub 仓库 (https://github.com/ScenemaAI/scenema-audio) 获取完整文档。

https://huggingface.co/ScenemaAI/scenema-audio#prompt-format 提示格式

<voice>表演方向</voice> 此处为演讲文本。
属性必需默认值描述
voice-详细的语音描述。驱动声音质量、情感、口音、年龄、音色、表达风格。
gender-"male""female"。控制编译提示中的代词分配。
scene-环境背景。影响语音周围的背景音频。
language"en"语言代码。

https://huggingface.co/ScenemaAI/scenema-audio#voice-description 语音描述

voice 属性是主要控制。越丰富、越具体越好:

  • 声音特质: 音色、音高、气息感、沙哑度、共鸣
  • 情感状态: 愤怒、温柔、疲惫、兴奋、悲伤
  • 说话风格: 节奏、强调、停顿、发音清晰度
  • 角色原型: “想象托尼·索普拉诺崩溃的样子”
  • 年龄与性别: 儿童、老人、年轻女性、青少年男孩
  • 口音: 英式、美国南部、新泽西意大利裔美国人口音

https://huggingface.co/ScenemaAI/scenema-audio#action-tags 动作标签

<action>标签是舞台指示,用于塑造如何表达语音。将它们置于语音片段之间,以引导情感转变、节奏和身体表达:

<action>冷静,几乎随意。盯着自己的手。</action>我曾以为我拥有世界上所有的时间。<action>声音收紧。努力保持镇定。</action>然后某个星期二早上,医生说了三个字,改变了一切。<action>长停顿。深呼吸。声音沙哑但稳定。</action>然后我意识到我已经六个月没给我儿子打电话了。

https://huggingface.co/ScenemaAI/scenema-audio#voice-cloning 语音克隆

提供 10-20 秒带有一定情感变化的参考音频。模型根据提示生成富有表现力的语音,并将参考语音的身份迁移到表演中。

{
  "prompt": "<voice>他彻底失控了</voice>你还在等什么?!",
  "reference_voice_url": "https://example.com/reference.wav"
}

任何语音都能表演任何情感,即使该语音从未在该情感状态下被录制过。

https://huggingface.co/ScenemaAI/scenema-audio#examples 示例

https://huggingface.co/ScenemaAI/scenema-audio#emotional-acting 情感表演

<voice>他慢慢站起来,声音危险地低沉</voice>你闯进我家,吃我的东西,然后还敢教我怎么打理我的生意。<action>声音提高,手指指着</action>我白手起家建立起这一切的时候,你还坐在你的屁股上无所事事。

https://huggingface.co/ScenemaAI/scenema-audio#child-voice 儿童声音

<voice>兴奋的六岁小女孩</voice>妈妈快看!有一条彩虹,它横跨了整个天空!

https://huggingface.co/ScenemaAI/scenema-audio#scene-aware-audio 场景感知音频

<voice>大雨滂沱,狂风呼啸</voice><scene>暴风雨中的码头</scene><action>他对着暴风雨大喊</action>抓住缆绳!她在挣脱!<action>雷声在头顶炸裂</action>快!我说快!

https://huggingface.co/ScenemaAI/scenema-audio#api-reference API 参考

https://huggingface.co/ScenemaAI/scenema-audio#post-generate POST /generate

字段类型默认值描述
promptstring必需XML 字符串
modestring"generate""generate" 用于完整流程。"voice_design" 用于 15 秒语音预览。
reference_voice_urlstringnull用于零样本语音克隆的参考音频 URL。10-20 秒且带有情感变化为佳。
background_sfxboolfalse在输出中保留生成的声音效果。
validatebooltrueWhisper 语音验证, garbled 输出时重试。
seedint-1生成种子。-1 为随机。
pacefloat1.5时长分配乘数。更高 = 更慢的语音。
min_match_ratiofloat0.90Whisper 验证阈值 (0.0-1.0)。
skip_vcboolfalse跳过语音转换后处理。
vc_stepsint25SeedVC 扩散步数 (10-50)。
vc_cfg_ratefloat0.5SeedVC 引导率 (0.0-1.0)。

https://huggingface.co/ScenemaAI/scenema-audio#response 响应

返回包含 base64 编码 WAV 音频的 JSON:

{
  "status": "succeeded",
  "audio": "<base64 编码的 WAV 数据>",
  "content_type": "audio/wav",
  "metadata": {
    "duration_s": 12.4,
    "sample_rate": 48000,
    "processing_ms": 8200,
    "seed": 42
  }
}

https://huggingface.co/ScenemaAI/scenema-audio#architecture 架构

XML 提示 (voice + scene + action 标签 + 文本) -> Gemma 3 12B 文本编码 -> 8步蒸馏潜在扩散 -> 音频 VAE 解码 -> MelBandRoFormer 人声分离 (除非 background_sfx=true 则保留 SFX) -> SeedVC 语音身份迁移 (提供参考或多片段时) -> 输出 WAV (48kHz 立体声)

对于较长的文本,系统使用 Kokoro 音素级时长估算在句子边界处拆分,并通过 A2V 潜在条件保持各段之间的语音连续性。

https://huggingface.co/ScenemaAI/scenema-audio#vram-requirements VRAM 要求

VRAM音频模型Gemma备注
16 GBINT8 (4.9 GB)CPU 流式需要 32 GB 系统内存。每段编码约 7 秒。
24 GBINT8 (4.9 GB)NF4 on GPU (~8 GB)默认配置。每段编码约 0.2 秒。
48 GBbf16 (9.8 GB)bf16 on GPU (24 GB)最佳质量。所有模型常驻。VRAM 策略自动检测。
推荐所有配置使用 SageAttention 2 (https://github.com/thu-ml/SageAttention)。

https://huggingface.co/ScenemaAI/scenema-audio#performance 性能

在 NVIDIA RTX 4090 (24 GB) 上基准测试,约 55 秒输出音频: 配置 | 总时间 | 实时因子 — | — | — bf16 + bf16 流式 | 83s | 0.66x INT8 + NF4 (全部 GPU) | 35s | 1.57x

https://huggingface.co/ScenemaAI/scenema-audio#limitations 局限

  • 发音: 有时会混淆复杂的多音节词和专有名词。
  • 15 秒生成窗口: 每段限制约 15 秒。较长的文本会自动拆分。
  • 语音克隆的情感范围: 身份迁移可能减少极端情感。请在语音描述中使用强烈原型,并提供带有自然情感变化的参考音频(10-20 秒,非单调)。
  • 多语言发音: 说话中途切换语言可能导致发音漂移。请按语言分开请求。
  • 生成速度: 每 15 秒段耗时 3-8 秒,视硬件而定。
  • 参考音频质量: 低质量参考会降低输出质量。请使用干净且带有情感变化的音频。
  • Gemma 3 12B 受限: 需要接受 Google 的使用条款以及具有访问权限的 HuggingFace 令牌。

https://huggingface.co/ScenemaAI/scenema-audio#acknowledgments 致谢

  • LTX-2 (https://github.com/Lightricks/LTX-2) by Lightricks,提供基础视听模型
  • Gemma 3 (https://ai.google.dev/gemma) by Google,提供文本编码器
  • SeedVC (https://github.com/Plachtaa/seed-vc) by Plachta,提供语音细化
  • Kokoro (https://github.com/hexgrad/kokoro) by hexgrad,提供时长估算
  • SageAttention (https://github.com/thu-ml/SageAttention),提供注意力加速

https://huggingface.co/ScenemaAI/scenema-audio#license 许可证

模型权重根据 LTX-2 社区许可协议 (https://github.com/Lightricks/LTX-2/blob/main/LICENSE) 发布。Scenema Audio 的音频扩散变压器源自 LTX 2.3 (https://github.com/Lightricks/LTX-2) 的视听模型,其权重受相同条款约束。推理代码和服务器根据 MIT 许可证 (https://github.com/ScenemaAI/scenema-audio/blob/main/LICENSE) 发布。Gemma 3 12B (https://ai.google.dev/gemma/terms)(文本编码器)是一个受限模型,需要接受 Google 的使用条款。

相似文章

DramaBox by Resemble AI

Product Hunt

DramaBox by Resemble AI 将场景描述转换为 AI 生成的人声表演。

ResembleAI/Dramabox

Hugging Face Models Trending

Dramabox 是 Resemble AI 开发的一个富有表现力的文本转语音模型,通过提示驱动控制来实现说话人身份、情感和表达方式,并可选地使用 10 秒参考音频进行声音克隆。该模型基于 LTX-2.3 音频扩散变换器构建,已在 Hugging Face 上开源。

k2-fsa/OmniVoice

Hugging Face Models Trending

OmniVoice 是一款大规模多语言零样本文本转语音模型,支持超过 600 种语言,基于扩散语言模型架构构建,具备快速推理和语音克隆能力。