SmartDirector: 关键帧条件化的电影视频生成与叙事节奏控制

Hugging Face Daily Papers 2026/05/27 00:00 论文

摘要

SmartDirector是一个通过多关键帧增强视频生成的框架，旨在改善叙事结构和时间节奏，采用低分辨率生成和高分辨率优化的两阶段流程。

视频的叙事质量从根本上决定了其感知价值。尽管现有的视频生成方法可以生成视觉上令人满意的内容，但它们主要依赖于稀疏的条件信号，如文本提示或首/尾帧，这限制了对叙事结构和时间节奏的精确控制。在本文中，我们提出了SmartDirector，一个通过多个关键帧增强视频生成模型叙事能力的框架。SmartDirector支持灵活的场景生成，包括单镜头生成、多镜头叙事合成以及视频扩展。该框架分为两个阶段：Director-Gen根据提供的关键帧生成低分辨率视频，Director-SR通过利用高分辨率关键帧作为语义锚点来恢复精细细节，从而优化输出。为了实现鲁棒的多关键帧训练，我们构建了一个数据管道，从电影中整理单镜头和多镜头序列。大量实验表明，SmartDirector显著优于现有的最先进方法。我们将发布代码以促进进一步研究。

查看原文

查看缓存全文

缓存时间: 2026/05/29 03:00

论文页面 - SmartDirector: 关键帧条件化电影级视频生成与叙事节奏控制

来源: https://huggingface.co/papers/2605.27891

摘要

SmartDirector 通过使用多个关键帧来增强视频生成，通过低分辨率生成和高分辨率细化两阶段流程，提升叙事结构与时间节奏。

视频的叙事质量从根本上决定了其感知价值。尽管现有的视频生成方法能够生成视觉上吸引人的内容，但它们主要依赖稀疏的条件信号，如文本提示或首/尾帧，这限制了对叙事结构和时间节奏的精确控制。在本文中，我们提出 SmartDirector，一种通过多个关键帧增强视频生成模型叙事能力的框架。SmartDirector 支持灵活生成场景，包括单镜头生成、多镜头叙事合成和视频扩展。该框架分两阶段运行：Director-Gen 在提供的关键帧条件下生成低分辨率视频，Director-SR 则利用高分辨率关键帧作为语义锚点，恢复精细细节以优化输出。为实现鲁棒的多关键帧训练，我们构建了一个数据管道，从电影中筛选单镜头和多镜头序列。大量实验表明，SmartDirector 显著优于现有最先进方法。我们将发布代码以促进进一步研究。

查看 arXiv 页面查看 PDF 项目页面 GitHub5 收藏

在您的代理中获取此论文：

hf papers read 2605.27891

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.27891，即可从此页面链接至该模型。

引用此论文的数据集 0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.27891，即可从此页面链接至该数据集。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.27891，即可从此页面链接至该 Space。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加至收藏集，即可从此页面链接至该收藏集。

SmartDirector: 关键帧条件化的电影视频生成与叙事节奏控制

论文页面 - SmartDirector: 关键帧条件化电影级视频生成与叙事节奏控制

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

实验用故事板规划的AI电影化场景，而非单提示生成

CausalCine：用于多镜头视频叙事的实时自回归生成

MotiMotion：基于视觉推理的运动控制视频生成

@DeRonin_: 这款工具彻底改变了动态设计的面貌——输入一个提示词 = 输出完整动态作品 [ 运作原理 ]: - 10+ …

仅用一条文本提示生成了电影质感的未来汽车预告片

提交意见反馈