One Sentence, One Drama: 基于多智能体系统的个性化短剧生成

Hugging Face Daily Papers 论文

摘要

一个分层多智能体框架通过强制叙事节奏、确保空间一致性和通过迭代优化与审阅循环实现质量控制,从单一句子生成短剧。它引入了一个新的基准——Short-Drama-Bench,用于评估。

现有的数字短剧制作方法通常依赖于一次性LLM生成的脚本和松散耦合的流水线,无法满足短剧生成的三个关键要求:(1)叙事节奏,导致钩子弱、升级不足和结局不吸引人;(2)空间一致性,导致场景布局漂移和不同片段中角色位置不一致;(3)制作级质量控制,需要在脚本和视觉阶段进行大量人工审查和修正。我们提出了One Sentence, One Drama,一个分层多智能体框架,通过结构化的中间模块和迭代优化,将用户的单句想法转化为完整制作的短剧。我们的方法基于三个关键组件:(1)基于多智能体辩论的故事生成模块,强制短剧节奏和叙事连贯性;(2)基于3D的首帧生成机制,建立共享空间参考,确保跨片段角色位置和场景布局一致;(3)多阶段审阅循环,在脚本、视觉和视频生成阶段进行全面错误检测和针对性修订。我们还引入了场景级BGM匹配和场景过渡规划,以提升观众的沉浸式体验。为了系统评估此任务,我们提出了Short-Drama-Bench,一个用短剧特定标准扩展标准视频质量指标的基准。实验结果表明,我们的方法在叙事质量、跨片段一致性和整体观看体验方面显著优于现有流水线。
查看原文
查看缓存全文

缓存时间: 2026/05/22 06:27

论文页面 - 一句话,一部剧:基于多智能体系统的个性化短剧生成

来源:https://huggingface.co/papers/2605.22144

摘要

一种分层多智能体框架,通过强制叙事节奏、确保空间一致性,并借助迭代优化和审查循环实现质量控制,从而将单句话转化为完整的短剧。

现有的数字短剧制作方法通常依赖一次性LLM生成的脚本和松散耦合的流水线,无法满足短剧生成的三个关键要求:(1)叙事节奏,导致钩子薄弱、升级不足、结局缺乏吸引力;(2)空间一致性,导致场景布局飘忽不定、角色位置在不同片段间不一致;(3)生产级质量控制,需要在脚本和视觉阶段进行大量人工审查和修正。我们提出了“一句话,一部剧”,这是一个分层多智能体框架,通过结构化的中间模块和迭代优化,将用户的单句创意转化为完整制作的短剧。我们的方法基于三个关键组件:(1)一种基于多智能体辩论的故事生成模块,强制保障短剧节奏和叙事连贯性;(2)一种基于3D的首帧生成机制,建立共享的空间参考,确保角色位置和场景布局在不同片段间一致;(3)多阶段审查循环,在脚本、视觉和视频生成阶段进行全面错误检测和针对性修正。我们还引入了场景级BGM匹配和场景转换规划,以提升观众的沉浸式体验。为了系统评估该任务,我们提出了Short-Drama-Bench,一个在标准视频质量指标基础上扩展了短剧特定标准的基准。实验结果表明,我们的方法在叙事质量、跨片段一致性和整体观看体验方面显著优于现有流水线。

查看arXiv页面 (https://arxiv.org/abs/2605.22144)查看PDF (https://arxiv.org/pdf/2605.22144)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22144)

在你的智能体中获取此论文:

hf papers read 2605\.22144

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型关联此论文

请在模型的README.md中引用arxiv.org/abs/2605.22144以从本页链接。

引用该论文的数据集0

没有数据集关联此论文

请在数据集的README.md中引用arxiv.org/abs/2605.22144以从本页链接。

引用该论文的Space0

没有Space关联此论文

请在Space的README.md中引用arxiv.org/abs/2605.22144以从本页链接。

包含该论文的收藏集0

没有收藏集包含此论文

请将该论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接。

相似文章

我重建了我的私有“AI开发团队”——它实际上只是一个硬编码的工作流——将其作为一个基底,使得编排从指令中涌现。以下是我的经验教训(以及它在哪里发生死锁)。

Reddit r/AI_Agents

作者将其私有AI开发团队重建为一个开源的基底,包含可寻址的代理、可靠的消息传递、专长发现、记忆和隔离的运行时,使得团队行为能够从自然语言指令中涌现。他们分享了关于死锁和自我修复等协调挑战的见解,并提出了代理团队如何通过自然语言指令进行协作的问题。

Fable 5 基准测试(使用 remotion 视频)

Reddit r/singularity

Fable 5 在视频生成基准测试中相比 Opus 4.8 整体有所改进,但 Gemini 3.1 Pro 展现了更多艺术视野,尽管在工具调用和编写有 bug 的代码方面存在问题。

语音助手能处理双语客户吗?前沿ASR在代码切换语音上的基准测试

Hugging Face Blog

ServiceNow AI 发布了一个基准测试和数据集,用于评估自动语音识别(ASR)在跨四种语言对(西班牙语-英语、法语-英语、加拿大法语-英语、德语-英语)的企业HR和IT场景中的代码切换语音上的表现,发现当前前沿ASR模型在代码切换方面仍存在困难,导致错误率较高。