OmniDirector: 通用多镜头相机克隆,无需交叉配对数据

Hugging Face Daily Papers 论文

摘要

一个统一的框架,通过网格运动视频和多模态扩散变换器实现相机运动克隆,无需交叉配对数据即可实现导演级别的控制。

克隆参考视频中的相机运动是视频生成中的一项重要任务,因为视频提供了直观且精确的控制。现有方法要么直接使用参数化表示,但无法处理多镜头生成;要么合成交叉配对数据,但受限于数据稀缺,导致在复杂相机运动克隆中表现不佳。为了解决这些问题,我们引入了一种通用的相机运动表示,将相机编码为网格运动视频。这种相机网格直观地表示相机参数,并支持集成多种轨迹用于多镜头视频生成。在此基础上,我们提出了OmniDirector,一个在百万级相机网格-视频对上训练的统一框架,它协调角色、动作和相机,为多模态扩散变换器提供导演级别的控制。此外,我们设计了一种新颖的分层提示扩展代理,通过系统地描述相机运动和视觉内容并理解信号关系,和谐地集成不同的控制信号。大量实验证明了我们框架的卓越性能和出色的可控性。项目页面:https://ymlinfeng.github.io/OmniDirector.github.io/
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:04

论文页面 - OmniDirector:无需配对数据的通用多镜头相机克隆

来源:https://huggingface.co/papers/2606.13432

摘要

一种统一的相机运动克隆框架,以网格运动视频作为表征,并集成多模态扩散变换器以增强视频生成控制。

从参考视频中克隆相机运动是视频生成(https://huggingface.co/papers?q=video%20generation)中的一项重要任务,因为视频能够提供直观而精确的控制。现有方法要么直接使用参数化表征(https://huggingface.co/papers?q=parametric%20representations),但无法处理多镜头生成;要么合成交叉配对数据(https://huggingface.co/papers?q=cross-paired%20data),但这面临数据稀缺问题,导致在复杂的相机运动克隆(https://huggingface.co/papers?q=camera%20motion%20cloning)中表现不佳。为解决这些问题,我们提出了一种通用的相机运动表征,将相机编码为网格运动视频(https://huggingface.co/papers?q=grid%20motion%20videos)。这种相机网格(https://huggingface.co/papers?q=camera%20grid)以视觉方式表示相机参数(https://huggingface.co/papers?q=camera%20parameters),并支持集成多种轨迹以实现多镜头视频生成(https://huggingface.co/papers?q=video%20generation)。在此基础上,我们提出了 OmniDirector,这是一个统一的框架,在百万级相机网格(https://huggingface.co/papers?q=camera%20grid)-视频对上训练,协调角色、动作和相机,为多模态扩散变换器(https://huggingface.co/papers?q=multimodal%20diffusion%20transformers)提供导演级控制(https://huggingface.co/papers?q=director-level%20control)。此外,我们设计了一种新颖的分层提示扩展代理(https://huggingface.co/papers?q=hierarchical%20prompt%20expansion%20agent),通过理解信号关系系统性地描述相机运动和视觉内容,从而和谐地集成不同的控制信号。大量实验证明了我们框架的卓越性能和出色的可控性。项目页面:https://ymlinfeng.github.io/OmniDirector.github.io/

查看 arXiv 页面(https://arxiv.org/abs/2606.13432)查看 PDF(https://arxiv.org/pdf/2606.13432)项目页面(https://ymlinfeng.github.io/OmniDirector.github.io/)GitHub20(https://github.com/lisj575/OmniDirector)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.13432)

在您的代理中获取此论文:

hf papers read 2606.13432

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.13432 即可从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.13432 即可从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.13432 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

添加此论文到一个收藏集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

Hugging Face Daily Papers

TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。

AnyMo:基于掩码建模的任意模态条件运动生成扩展

Hugging Face Daily Papers

本文提出AnyMo,一种统一的多模态人体运动生成框架,结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer,并利用包含超过5000小时运动数据的OmniHuMo数据集,实现在任意模态组合下的高质量合成。