DramaBox:基于舞台提示构建的开源权重TTS模型
摘要
DramaBox是一个基于LTX-2.3微调的开源权重TTS模型,利用舞台提示(stage directions)生成富有表现力的语音,并支持通过10秒样本进行可选的语音克隆。
暂无内容
查看缓存全文
缓存时间: 2026/05/14 12:32
# DramaBox:围绕舞台指示构建的开权重TTS模型 - Firethering
来源:https://firethering.com/dramabox-open-weights-tts-voice-cloning/
\- 广告 -
听一听。
*via Hugging Face / DramaBox 演示*那不是合成的声音。那是一个提示。有人围绕对话写了舞台指示,交给模型,然后得到了一个反派在独白间喘气、然后压低声音的效果。
DramaBox 刚刚登陆 Hugging Face,演示空间已上线。Resemble AI 在 Lightricks 的 LTX-2.3 (https://firethering.com/ltx-23-ai-video-generator/) 基础上构建了它,而它与所有其他 TTS 模型的不同之处比你想的更简单:你给它写的不是文本,而是一个场景。
## **写一个场景,而不是一句话**
你用过的多数 TTS 模型工作方式都一样。粘贴文本,得到语音。模型决定语气、节奏、表达方式。给你什么就是什么。
DramaBox 工作方式不同。你给它写的不是文本,而是一个剧本。
舞台指示放在引号外面,作为模型不会念出来的表演提示。对话放在引号里面,会被逐字念出,包括拟声词。"Hahaha" 是笑声。"Hmm" 是停顿。"Ugh" 就是它听起来的样子。模型会“阅读”对话周围的“场面”来相应地表演。
像这样一行:*一位高贵的女性带着冷酷的怒火说道。“I have told you a thousand times.”* 输出结果与直接向模型输入那句话有着本质区别。指示塑造了表达方式。结果听起来不像合成,更像是有人在说出这句话之前真正进入了角色。
把这种模型称为语音模型有点奇怪,但最贴切的类比是一种恰好同时作为提示的剧本格式。
## **背后的技术**
DramaBox 是一个基于 LTX-2.3 的 IC-LoRA 微调模型。LTX-2.3 是 Lightricks 开发的 3.3B 扩散 Transformer,最初用于视频生成。Resemble AI 提取了音频分支,在其上进行训练,并让整个模型以 Gemma 3 12B 文本嵌入为条件,这使得它能够真正解析和响应自然语言指令。
这种架构决定了提示格式的可行性。大多数 TTS 模型本质上只是升级版的声码器。而这个模型在生成音频之前,会有一个大语言模型读取你的舞台指示。
##### **相关文章**:开源 TTS 模型如此小巧强大,你几乎可以在任何设备上运行本地语音 AI (https://firethering.com/best-lightweight-open-source-tts-models/)
## **语音克隆部分及其实际需求**
语音克隆部分也很简单。你可以选择给 DramaBox 一个 10 秒的语音样本。如果不给,模型只会挑选一个匹配你写的场景的声音。如果给,它会尝试用那个人的声音说话。
一些语音克隆演示效果出奇地逼真。模型不仅复制声音,还复制了其周围的表达风格:停顿、呼吸、当一个人在句子中途开始笑时语调的细微变化。这感觉更像是在导演一场表演。
#### **参考音频**
*via Hugging Face / DramaBox 演示*#### **生成音频**
*via Hugging Face / DramaBox 演示*## **局限性**
首先,硬件。峰值显存约 24GB,Gemma 3 12B 首次运行时会自动下载,约 8GB。这不是消费级 GPU 能应付的。如果你不想在本地搭建,Hugging Face 上的 ZeroGPU 演示空间可以在浏览器中运行。
其次,许可证。DramaBox 采用 LTX-2 社区许可证,听起来很开放但有一个重要条件:年收入超过 1000 万美元的公司需要与 Lightricks 另行签订商业协议。这是开放权重,而非开源,在你基于它构建任何东西之前值得仔细阅读。
## **谁真正需要它**
对于只需要一个基础文本转语音 API 的人来说,这可能是大材小用。但对于正在构建原生音频体验的人来说,这个模型就有意义多了。
游戏工作室生成富有表现力的 NPC 对话。音频剧制作流程。配音工作流。播客工具。角色原型设计。交互式故事系统——其中表达方式本身与台词同样重要。
多数 TTS 系统优化的是可懂度。DramaBox 优化的是表演。
相似文章
DramaBox - 基于LTX 2.3的最具表现力语音模型
DramaBox是一个基于LTX 2.3的高度表现力语音模型,由Resemble AI发布,其开源代码和模型可在GitHub和Hugging Face上获取。
DramaBox by Resemble AI
DramaBox by Resemble AI 将场景描述转换为 AI 生成的人声表演。
ResembleAI/Dramabox
Dramabox 是 Resemble AI 开发的一个富有表现力的文本转语音模型,通过提示驱动控制来实现说话人身份、情感和表达方式,并可选地使用 10 秒参考音频进行声音克隆。该模型基于 LTX-2.3 音频扩散变换器构建,已在 Hugging Face 上开源。
@multimodalart: 他们只提取了LTX-2.3的音频部分,针对TTS任务进行了微调,实现了SOTA级别的TTS情感控制???试试看……
LTX-2.3模型音频组件的微调版本在文本转语音中实现了最先进的情感控制,现已在Hugging Face Space上以DramaBox(由ResembleAI提供)的形式提供。
@zohaibahmed: @resembleai研究团队的新语音AI模型:Dramabox!一个语音AI模型应该给你两样东西:奥斯卡级别的表演和可验证的签名,以证明它是你的。
Dramabox,来自Resemble AI的全新开源语音AI模型,声称既能提供高质量的表演效果,又能提供可验证的签名以证明其真实性。