DramaBox：基于舞台提示构建的开源权重TTS模型

Reddit r/ArtificialInteligence 2026/05/14 12:16 模型

tts voice-cloning open-weights diffusion-transformer speech-synthesis fine-tuning

摘要

DramaBox是一个基于LTX-2.3微调的开源权重TTS模型，利用舞台提示（stage directions）生成富有表现力的语音，并支持通过10秒样本进行可选的语音克隆。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/14 12:32

# DramaBox：围绕舞台指示构建的开权重TTS模型 - Firethering 来源：https://firethering.com/dramabox-open-weights-tts-voice-cloning/ \- 广告 - 听一听。 *via Hugging Face / DramaBox 演示*那不是合成的声音。那是一个提示。有人围绕对话写了舞台指示，交给模型，然后得到了一个反派在独白间喘气、然后压低声音的效果。 DramaBox 刚刚登陆 Hugging Face，演示空间已上线。Resemble AI 在 Lightricks 的 LTX-2.3 (https://firethering.com/ltx-23-ai-video-generator/) 基础上构建了它，而它与所有其他 TTS 模型的不同之处比你想的更简单：你给它写的不是文本，而是一个场景。 ## **写一个场景，而不是一句话** 你用过的多数 TTS 模型工作方式都一样。粘贴文本，得到语音。模型决定语气、节奏、表达方式。给你什么就是什么。 DramaBox 工作方式不同。你给它写的不是文本，而是一个剧本。舞台指示放在引号外面，作为模型不会念出来的表演提示。对话放在引号里面，会被逐字念出，包括拟声词。"Hahaha" 是笑声。"Hmm" 是停顿。"Ugh" 就是它听起来的样子。模型会“阅读”对话周围的“场面”来相应地表演。像这样一行：*一位高贵的女性带着冷酷的怒火说道。“I have told you a thousand times.”* 输出结果与直接向模型输入那句话有着本质区别。指示塑造了表达方式。结果听起来不像合成，更像是有人在说出这句话之前真正进入了角色。把这种模型称为语音模型有点奇怪，但最贴切的类比是一种恰好同时作为提示的剧本格式。 ## **背后的技术** DramaBox 是一个基于 LTX-2.3 的 IC-LoRA 微调模型。LTX-2.3 是 Lightricks 开发的 3.3B 扩散 Transformer，最初用于视频生成。Resemble AI 提取了音频分支，在其上进行训练，并让整个模型以 Gemma 3 12B 文本嵌入为条件，这使得它能够真正解析和响应自然语言指令。这种架构决定了提示格式的可行性。大多数 TTS 模型本质上只是升级版的声码器。而这个模型在生成音频之前，会有一个大语言模型读取你的舞台指示。 ##### **相关文章**：开源 TTS 模型如此小巧强大，你几乎可以在任何设备上运行本地语音 AI (https://firethering.com/best-lightweight-open-source-tts-models/) ## **语音克隆部分及其实际需求** 语音克隆部分也很简单。你可以选择给 DramaBox 一个 10 秒的语音样本。如果不给，模型只会挑选一个匹配你写的场景的声音。如果给，它会尝试用那个人的声音说话。一些语音克隆演示效果出奇地逼真。模型不仅复制声音，还复制了其周围的表达风格：停顿、呼吸、当一个人在句子中途开始笑时语调的细微变化。这感觉更像是在导演一场表演。 #### **参考音频** *via Hugging Face / DramaBox 演示*#### **生成音频** *via Hugging Face / DramaBox 演示*## **局限性** 首先，硬件。峰值显存约 24GB，Gemma 3 12B 首次运行时会自动下载，约 8GB。这不是消费级 GPU 能应付的。如果你不想在本地搭建，Hugging Face 上的 ZeroGPU 演示空间可以在浏览器中运行。其次，许可证。DramaBox 采用 LTX-2 社区许可证，听起来很开放但有一个重要条件：年收入超过 1000 万美元的公司需要与 Lightricks 另行签订商业协议。这是开放权重，而非开源，在你基于它构建任何东西之前值得仔细阅读。 ## **谁真正需要它** 对于只需要一个基础文本转语音 API 的人来说，这可能是大材小用。但对于正在构建原生音频体验的人来说，这个模型就有意义多了。游戏工作室生成富有表现力的 NPC 对话。音频剧制作流程。配音工作流。播客工具。角色原型设计。交互式故事系统——其中表达方式本身与台词同样重要。多数 TTS 系统优化的是可懂度。DramaBox 优化的是表演。

DramaBox：基于舞台提示构建的开源权重TTS模型

相似文章

DramaBox - 基于LTX 2.3的最具表现力语音模型

DramaBox by Resemble AI

ResembleAI/Dramabox

@multimodalart: 他们只提取了LTX-2.3的音频部分，针对TTS任务进行了微调，实现了SOTA级别的TTS情感控制？？？试试看……

@zohaibahmed: @resembleai研究团队的新语音AI模型：Dramabox！一个语音AI模型应该给你两样东西：奥斯卡级别的表演和可验证的签名，以证明它是你的。

提交意见反馈