DramaBox:基于舞台提示构建的开源权重TTS模型

Reddit r/ArtificialInteligence 模型

摘要

DramaBox是一个基于LTX-2.3微调的开源权重TTS模型,利用舞台提示(stage directions)生成富有表现力的语音,并支持通过10秒样本进行可选的语音克隆。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/14 12:32

# DramaBox:围绕舞台指示构建的开权重TTS模型 - Firethering 来源:https://firethering.com/dramabox-open-weights-tts-voice-cloning/ \- 广告 - 听一听。 *via Hugging Face / DramaBox 演示*那不是合成的声音。那是一个提示。有人围绕对话写了舞台指示,交给模型,然后得到了一个反派在独白间喘气、然后压低声音的效果。 DramaBox 刚刚登陆 Hugging Face,演示空间已上线。Resemble AI 在 Lightricks 的 LTX-2.3 (https://firethering.com/ltx-23-ai-video-generator/) 基础上构建了它,而它与所有其他 TTS 模型的不同之处比你想的更简单:你给它写的不是文本,而是一个场景。 ## **写一个场景,而不是一句话** 你用过的多数 TTS 模型工作方式都一样。粘贴文本,得到语音。模型决定语气、节奏、表达方式。给你什么就是什么。 DramaBox 工作方式不同。你给它写的不是文本,而是一个剧本。 舞台指示放在引号外面,作为模型不会念出来的表演提示。对话放在引号里面,会被逐字念出,包括拟声词。"Hahaha" 是笑声。"Hmm" 是停顿。"Ugh" 就是它听起来的样子。模型会“阅读”对话周围的“场面”来相应地表演。 像这样一行:*一位高贵的女性带着冷酷的怒火说道。“I have told you a thousand times.”* 输出结果与直接向模型输入那句话有着本质区别。指示塑造了表达方式。结果听起来不像合成,更像是有人在说出这句话之前真正进入了角色。 把这种模型称为语音模型有点奇怪,但最贴切的类比是一种恰好同时作为提示的剧本格式。 ## **背后的技术** DramaBox 是一个基于 LTX-2.3 的 IC-LoRA 微调模型。LTX-2.3 是 Lightricks 开发的 3.3B 扩散 Transformer,最初用于视频生成。Resemble AI 提取了音频分支,在其上进行训练,并让整个模型以 Gemma 3 12B 文本嵌入为条件,这使得它能够真正解析和响应自然语言指令。 这种架构决定了提示格式的可行性。大多数 TTS 模型本质上只是升级版的声码器。而这个模型在生成音频之前,会有一个大语言模型读取你的舞台指示。 ##### **相关文章**:开源 TTS 模型如此小巧强大,你几乎可以在任何设备上运行本地语音 AI (https://firethering.com/best-lightweight-open-source-tts-models/) ## **语音克隆部分及其实际需求** 语音克隆部分也很简单。你可以选择给 DramaBox 一个 10 秒的语音样本。如果不给,模型只会挑选一个匹配你写的场景的声音。如果给,它会尝试用那个人的声音说话。 一些语音克隆演示效果出奇地逼真。模型不仅复制声音,还复制了其周围的表达风格:停顿、呼吸、当一个人在句子中途开始笑时语调的细微变化。这感觉更像是在导演一场表演。 #### **参考音频** *via Hugging Face / DramaBox 演示*#### **生成音频** *via Hugging Face / DramaBox 演示*## **局限性** 首先,硬件。峰值显存约 24GB,Gemma 3 12B 首次运行时会自动下载,约 8GB。这不是消费级 GPU 能应付的。如果你不想在本地搭建,Hugging Face 上的 ZeroGPU 演示空间可以在浏览器中运行。 其次,许可证。DramaBox 采用 LTX-2 社区许可证,听起来很开放但有一个重要条件:年收入超过 1000 万美元的公司需要与 Lightricks 另行签订商业协议。这是开放权重,而非开源,在你基于它构建任何东西之前值得仔细阅读。 ## **谁真正需要它** 对于只需要一个基础文本转语音 API 的人来说,这可能是大材小用。但对于正在构建原生音频体验的人来说,这个模型就有意义多了。 游戏工作室生成富有表现力的 NPC 对话。音频剧制作流程。配音工作流。播客工具。角色原型设计。交互式故事系统——其中表达方式本身与台词同样重要。 多数 TTS 系统优化的是可懂度。DramaBox 优化的是表演。

相似文章

DramaBox by Resemble AI

Product Hunt

DramaBox by Resemble AI 将场景描述转换为 AI 生成的人声表演。

ResembleAI/Dramabox

Hugging Face Models Trending

Dramabox 是 Resemble AI 开发的一个富有表现力的文本转语音模型,通过提示驱动控制来实现说话人身份、情感和表达方式,并可选地使用 10 秒参考音频进行声音克隆。该模型基于 LTX-2.3 音频扩散变换器构建,已在 Hugging Face 上开源。