SmartDirector: 关键帧条件化的电影视频生成与叙事节奏控制

Hugging Face Daily Papers 论文

摘要

SmartDirector是一个通过多关键帧增强视频生成的框架,旨在改善叙事结构和时间节奏,采用低分辨率生成和高分辨率优化的两阶段流程。

视频的叙事质量从根本上决定了其感知价值。尽管现有的视频生成方法可以生成视觉上令人满意的内容,但它们主要依赖于稀疏的条件信号,如文本提示或首/尾帧,这限制了对叙事结构和时间节奏的精确控制。在本文中,我们提出了SmartDirector,一个通过多个关键帧增强视频生成模型叙事能力的框架。SmartDirector支持灵活的场景生成,包括单镜头生成、多镜头叙事合成以及视频扩展。该框架分为两个阶段:Director-Gen根据提供的关键帧生成低分辨率视频,Director-SR通过利用高分辨率关键帧作为语义锚点来恢复精细细节,从而优化输出。为了实现鲁棒的多关键帧训练,我们构建了一个数据管道,从电影中整理单镜头和多镜头序列。大量实验表明,SmartDirector显著优于现有的最先进方法。我们将发布代码以促进进一步研究。
查看原文
查看缓存全文

缓存时间: 2026/05/29 03:00

论文页面 - SmartDirector: 关键帧条件化电影级视频生成与叙事节奏控制

来源: https://huggingface.co/papers/2605.27891

摘要

SmartDirector 通过使用多个关键帧来增强视频生成,通过低分辨率生成和高分辨率细化两阶段流程,提升叙事结构与时间节奏。

视频的叙事质量从根本上决定了其感知价值。尽管现有的视频生成方法能够生成视觉上吸引人的内容,但它们主要依赖稀疏的条件信号,如文本提示或首/尾帧,这限制了对叙事结构时间节奏的精确控制。在本文中,我们提出 SmartDirector,一种通过多个关键帧增强视频生成模型叙事能力的框架。SmartDirector 支持灵活生成场景,包括单镜头生成多镜头叙事合成视频扩展。该框架分两阶段运行:Director-Gen 在提供的关键帧条件下生成低分辨率视频,Director-SR 则利用高分辨率关键帧作为语义锚点,恢复精细细节以优化输出。为实现鲁棒的多关键帧训练,我们构建了一个数据管道,从电影中筛选单镜头和多镜头序列。大量实验表明,SmartDirector 显著优于现有最先进方法。我们将发布代码以促进进一步研究。

查看 arXiv 页面 查看 PDF 项目页面 GitHub5 收藏

在您的代理中获取此论文:

hf papers read 2605.27891

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.27891,即可从此页面链接至该模型。

引用此论文的数据集 0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.27891,即可从此页面链接至该数据集。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.27891,即可从此页面链接至该 Space。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加至收藏集,即可从此页面链接至该收藏集。

相似文章

MotiMotion:基于视觉推理的运动控制视频生成

Hugging Face Daily Papers

MotiMotion提出了一种先推理后生成的框架,用于运动控制的视频生成。该框架利用视觉语言推理来优化运动轨迹,并采用置信度感知的控制方案来提高合理性,在新基准上优于现有方法。

仅用一条文本提示生成了电影质感的未来汽车预告片

Reddit r/ArtificialInteligence

作者展示了一个自动化的 AI 工作流,利用 Seedance 2.0 仅通过单条文本提示即可生成电影级汽车预告片。文章突出了在流程编排方面的进步,同时也指出了在画面一致性和物理真实性方面尚存的问题。