OmniDirector: 通用多镜头相机克隆，无需交叉配对数据

Hugging Face Daily Papers 2026/06/11 00:00 论文

摘要

一个统一的框架，通过网格运动视频和多模态扩散变换器实现相机运动克隆，无需交叉配对数据即可实现导演级别的控制。

克隆参考视频中的相机运动是视频生成中的一项重要任务，因为视频提供了直观且精确的控制。现有方法要么直接使用参数化表示，但无法处理多镜头生成；要么合成交叉配对数据，但受限于数据稀缺，导致在复杂相机运动克隆中表现不佳。为了解决这些问题，我们引入了一种通用的相机运动表示，将相机编码为网格运动视频。这种相机网格直观地表示相机参数，并支持集成多种轨迹用于多镜头视频生成。在此基础上，我们提出了OmniDirector，一个在百万级相机网格-视频对上训练的统一框架，它协调角色、动作和相机，为多模态扩散变换器提供导演级别的控制。此外，我们设计了一种新颖的分层提示扩展代理，通过系统地描述相机运动和视觉内容并理解信号关系，和谐地集成不同的控制信号。大量实验证明了我们框架的卓越性能和出色的可控性。项目页面：https://ymlinfeng.github.io/OmniDirector.github.io/

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:04

论文页面 - OmniDirector：无需配对数据的通用多镜头相机克隆

来源：https://huggingface.co/papers/2606.13432

摘要

一种统一的相机运动克隆框架，以网格运动视频作为表征，并集成多模态扩散变换器以增强视频生成控制。

从参考视频中克隆相机运动是视频生成（https://huggingface.co/papers?q=video%20generation）中的一项重要任务，因为视频能够提供直观而精确的控制。现有方法要么直接使用参数化表征（https://huggingface.co/papers?q=parametric%20representations），但无法处理多镜头生成；要么合成交叉配对数据（https://huggingface.co/papers?q=cross-paired%20data），但这面临数据稀缺问题，导致在复杂的相机运动克隆（https://huggingface.co/papers?q=camera%20motion%20cloning）中表现不佳。为解决这些问题，我们提出了一种通用的相机运动表征，将相机编码为网格运动视频（https://huggingface.co/papers?q=grid%20motion%20videos）。这种相机网格（https://huggingface.co/papers?q=camera%20grid）以视觉方式表示相机参数（https://huggingface.co/papers?q=camera%20parameters），并支持集成多种轨迹以实现多镜头视频生成（https://huggingface.co/papers?q=video%20generation）。在此基础上，我们提出了 OmniDirector，这是一个统一的框架，在百万级相机网格（https://huggingface.co/papers?q=camera%20grid）-视频对上训练，协调角色、动作和相机，为多模态扩散变换器（https://huggingface.co/papers?q=multimodal%20diffusion%20transformers）提供导演级控制（https://huggingface.co/papers?q=director-level%20control）。此外，我们设计了一种新颖的分层提示扩展代理（https://huggingface.co/papers?q=hierarchical%20prompt%20expansion%20agent），通过理解信号关系系统性地描述相机运动和视觉内容，从而和谐地集成不同的控制信号。大量实验证明了我们框架的卓越性能和出色的可控性。项目页面：https://ymlinfeng.github.io/OmniDirector.github.io/

查看 arXiv 页面（https://arxiv.org/abs/2606.13432）查看 PDF（https://arxiv.org/pdf/2606.13432）项目页面（https://ymlinfeng.github.io/OmniDirector.github.io/）GitHub20（https://github.com/lisj575/OmniDirector）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.13432）

在您的代理中获取此论文：

hf papers read 2606.13432

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.13432 即可从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.13432 即可从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.13432 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

添加此论文到一个收藏集（https://huggingface.co/new-collection）即可从此页面链接。

OmniDirector: 通用多镜头相机克隆，无需交叉配对数据

论文页面 - OmniDirector：无需配对数据的通用多镜头相机克隆

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

OmniHumanoid: 流式跨实体视频生成与无需配对自适应

Track2View：通过配对3D点轨迹实现4D一致的相机控制视频生成

Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

AnyMo：基于掩码建模的任意模态条件运动生成扩展

提交意见反馈