Scenema Audio：零样本富有表现力的语音克隆与语音生成 [N]

Reddit r/MachineLearning 2026/05/13 21:29 模型

voice-cloning speech-generation zero-shot diffusion-model expressive open-source ai-audio

摘要

Scenema AI 发布了 Scenema Audio，一个开源的基于扩散模型的零样本富有表现力的语音克隆与语音生成模型，将情感表现与声音身份分离，使任何声音都能演绎任何情感。

我们一直在构建 [Scenema Audio](https://scenema.ai/audio)，作为 scenema.ai 视频制作平台的一部分，现在我们正在发布模型权重和推理代码。核心理念：情感表现和声音身份是独立的。你描述语音应该如何演绎（愤怒、悲伤、兴奋、孩子般的好奇），并可选提供参考音频以确定声音身份。参考提供了“谁”，提示提供了“如何”。任何声音都能演绎任何情感，即使该声音从未在该情感状态下被录制过。 # 限制（以及我们为何仍在使用它）这是一个扩散模型，而非传统的 TTS 流水线。常见问题包括某些种子上的重复和乱码。不同种子会产生不同结果，且不可能达到零错误率的完美输出。此模型适用于后编辑工作流程：生成、挑选最佳片段、必要时裁剪。与任何生成模型的工作方式相同。尽管如此，我们仍经常选择 Scenema Audio 而非甚至 Gemini 3.1 Flash TTS（它已经比大多数现有 TTS 系统更可控）。原因很简单：输出听起来更自然、更少机械感。扩散生成的语音具有一种自回归 TTS 无法完全比拟的质量，尤其在情感传递方面。 # 音频优先的视频生成正如[这段视频](https://www.youtube.com/watch?v=ZZO3XAy3KTo)所指出的，首先生成音频，然后利用它驱动视频生成，是一种强大的工作流程。实际上，我们在某些场景下正是这样使用 Scenema Audio 的。生成语音表演，然后将其输入 A2V 流水线（LTX 2.3、Wan 2.6、Seedance 2.0 等），以生成与语音匹配的视频。[这里有一个该工作流程的实际示例。](https://youtu.be/dcAjQhPKNLk?si=4iOwtpsLR-WzwDmF) # 关于蒸馏与速度有几位用户问过这个问题。我们的瓶颈并非去噪步骤。扩散过程仅占总生成时间的一小部分。实际成本在流水线的其他环节。我们已经达到 8 步（从基础模型的 50 步减少），这是质量保持的最佳点。 # 提示词至关重要此模型对提示词很敏感，就像 LTX 2.3 对视频的敏感度一样。泛泛的语音描述会产生泛泛的输出。带有动作标签的具体、戏剧性的描述则能带来生动的表演。还有一个 `pace` 参数，控制模型在每个词上花费的时间。需要一些实验来找到适合你用例的设置，但一旦找到，就能生成数小时的音频而质量损失极小。复杂词汇和专有名词受益于音标拼写。与传统 TTS 不同，它没有音素到音频的流水线或发音词典。如果它把 "Tchaikovsky" 说错，你可以把它拼成 "Chai-koff-skee" 或任何你认为合理的拼写。 # 带有自动VRAM管理的Docker REST API 我们以 Docker 容器的形式提供，并附带 REST API。与我们在 scenema.ai 生产环境中使用的设置相同。该服务会自动检测你的 GPU 并选择正确的配置： |VRAM|音频模型|Gemma|备注| |:-|:-|:-|:-| |16 GB|INT8 (4.9 GB)|CPU 流式传输|需要 32 GB 系统内存| |24 GB|INT8 (4.9 GB)|GPU 上的 NF4|默认配置| |48 GB|bf16 (9.8 GB)|GPU 上的 bf16|最佳质量| 我们选择 Docker 是因为我们正是这样服务的。没有依赖地狱，没有 conda 环境。拉取镜像，设置你的 HF token 以访问 Gemma，然后执行 `docker compose up`。 # ComfyUI 计划支持原生 ComfyUI 节点。我们希望在接下来的几周内发布，除非社区中有其他人抢先一步。与此同时，REST API 很容易从自定义节点调用，因为它只是一个本地 HTTP 服务。 # 链接 * **所有演示与文章：** [scenema.ai/audio](https://scenema.ai/audio) * **模型权重：** [huggingface.co/ScenemaAI/scenema-audio](https://huggingface.co/ScenemaAI/scenema-audio) * **代码与设置：** [github.com/ScenemaAI/scenema-audio](https://github.com/ScenemaAI/scenema-audio) * **YouTube 演示：** [youtu.be/VnEQ\_ImOaAc](https://youtu.be/VnEQ_ImOaAc) 这是完全开源的。模型权重基于 LTX-2 Community License，但所有推理和流水线代码均为 MIT 许可证。

查看原文

Scenema Audio：零样本富有表现力的语音克隆与语音生成 [N]

相似文章

ScenemaAI/scenema-audio

@zohaibahmed: @resembleai研究团队的新语音AI模型：Dramabox！一个语音AI模型应该给你两样东西：奥斯卡级别的表演和可验证的签名，以证明它是你的。

DramaBox by Resemble AI

ResembleAI/Dramabox

k2-fsa/OmniVoice

提交意见反馈