Scenema Audio:零样本富有表现力的语音克隆与语音生成 [N]
摘要
Scenema AI 发布了 Scenema Audio,一个开源的基于扩散模型的零样本富有表现力的语音克隆与语音生成模型,将情感表现与声音身份分离,使任何声音都能演绎任何情感。
我们一直在构建 [Scenema Audio](https://scenema.ai/audio),作为 scenema.ai 视频制作平台的一部分,现在我们正在发布模型权重和推理代码。核心理念:情感表现和声音身份是独立的。你描述语音应该如何演绎(愤怒、悲伤、兴奋、孩子般的好奇),并可选提供参考音频以确定声音身份。参考提供了“谁”,提示提供了“如何”。任何声音都能演绎任何情感,即使该声音从未在该情感状态下被录制过。
# 限制(以及我们为何仍在使用它)
这是一个扩散模型,而非传统的 TTS 流水线。常见问题包括某些种子上的重复和乱码。不同种子会产生不同结果,且不可能达到零错误率的完美输出。此模型适用于后编辑工作流程:生成、挑选最佳片段、必要时裁剪。与任何生成模型的工作方式相同。尽管如此,我们仍经常选择 Scenema Audio 而非甚至 Gemini 3.1 Flash TTS(它已经比大多数现有 TTS 系统更可控)。原因很简单:输出听起来更自然、更少机械感。扩散生成的语音具有一种自回归 TTS 无法完全比拟的质量,尤其在情感传递方面。
# 音频优先的视频生成
正如[这段视频](https://www.youtube.com/watch?v=ZZO3XAy3KTo)所指出的,首先生成音频,然后利用它驱动视频生成,是一种强大的工作流程。实际上,我们在某些场景下正是这样使用 Scenema Audio 的。生成语音表演,然后将其输入 A2V 流水线(LTX 2.3、Wan 2.6、Seedance 2.0 等),以生成与语音匹配的视频。[这里有一个该工作流程的实际示例。](https://youtu.be/dcAjQhPKNLk?si=4iOwtpsLR-WzwDmF)
# 关于蒸馏与速度
有几位用户问过这个问题。我们的瓶颈并非去噪步骤。扩散过程仅占总生成时间的一小部分。实际成本在流水线的其他环节。我们已经达到 8 步(从基础模型的 50 步减少),这是质量保持的最佳点。
# 提示词至关重要
此模型对提示词很敏感,就像 LTX 2.3 对视频的敏感度一样。泛泛的语音描述会产生泛泛的输出。带有动作标签的具体、戏剧性的描述则能带来生动的表演。还有一个 `pace` 参数,控制模型在每个词上花费的时间。需要一些实验来找到适合你用例的设置,但一旦找到,就能生成数小时的音频而质量损失极小。复杂词汇和专有名词受益于音标拼写。与传统 TTS 不同,它没有音素到音频的流水线或发音词典。如果它把 "Tchaikovsky" 说错,你可以把它拼成 "Chai-koff-skee" 或任何你认为合理的拼写。
# 带有自动VRAM管理的Docker REST API
我们以 Docker 容器的形式提供,并附带 REST API。与我们在 scenema.ai 生产环境中使用的设置相同。该服务会自动检测你的 GPU 并选择正确的配置:
|VRAM|音频模型|Gemma|备注|
|:-|:-|:-|:-|
|16 GB|INT8 (4.9 GB)|CPU 流式传输|需要 32 GB 系统内存|
|24 GB|INT8 (4.9 GB)|GPU 上的 NF4|默认配置|
|48 GB|bf16 (9.8 GB)|GPU 上的 bf16|最佳质量|
我们选择 Docker 是因为我们正是这样服务的。没有依赖地狱,没有 conda 环境。拉取镜像,设置你的 HF token 以访问 Gemma,然后执行 `docker compose up`。
# ComfyUI
计划支持原生 ComfyUI 节点。我们希望在接下来的几周内发布,除非社区中有其他人抢先一步。与此同时,REST API 很容易从自定义节点调用,因为它只是一个本地 HTTP 服务。
# 链接
* **所有演示与文章:** [scenema.ai/audio](https://scenema.ai/audio)
* **模型权重:** [huggingface.co/ScenemaAI/scenema-audio](https://huggingface.co/ScenemaAI/scenema-audio)
* **代码与设置:** [github.com/ScenemaAI/scenema-audio](https://github.com/ScenemaAI/scenema-audio)
* **YouTube 演示:** [youtu.be/VnEQ\_ImOaAc](https://youtu.be/VnEQ_ImOaAc)
这是完全开源的。模型权重基于 LTX-2 Community License,但所有推理和流水线代码均为 MIT 许可证。
相似文章
ScenemaAI/scenema-audio
Scenema Audio 是一种零样本表现性语音克隆和语音生成模型,能够根据文本提示生成带有情感曲线、节奏和呼吸控制的语音。该模型基于音频扩散变换器,支持多语言生成、从10-20秒参考音频进行语音克隆,以及包含环境效果的场景感知音频。
@zohaibahmed: @resembleai研究团队的新语音AI模型:Dramabox!一个语音AI模型应该给你两样东西:奥斯卡级别的表演和可验证的签名,以证明它是你的。
Dramabox,来自Resemble AI的全新开源语音AI模型,声称既能提供高质量的表演效果,又能提供可验证的签名以证明其真实性。
DramaBox by Resemble AI
DramaBox by Resemble AI 将场景描述转换为 AI 生成的人声表演。
ResembleAI/Dramabox
Dramabox 是 Resemble AI 开发的一个富有表现力的文本转语音模型,通过提示驱动控制来实现说话人身份、情感和表达方式,并可选地使用 10 秒参考音频进行声音克隆。该模型基于 LTX-2.3 音频扩散变换器构建,已在 Hugging Face 上开源。
k2-fsa/OmniVoice
OmniVoice 是一款大规模多语言零样本文本转语音模型,支持超过 600 种语言,基于扩散语言模型架构构建,具备快速推理和语音克隆能力。