OmniDirector: 通用多镜头相机克隆,无需交叉配对数据
摘要
一个统一的框架,通过网格运动视频和多模态扩散变换器实现相机运动克隆,无需交叉配对数据即可实现导演级别的控制。
查看缓存全文
缓存时间: 2026/06/15 09:04
论文页面 - OmniDirector:无需配对数据的通用多镜头相机克隆
来源:https://huggingface.co/papers/2606.13432
摘要
一种统一的相机运动克隆框架,以网格运动视频作为表征,并集成多模态扩散变换器以增强视频生成控制。
从参考视频中克隆相机运动是视频生成(https://huggingface.co/papers?q=video%20generation)中的一项重要任务,因为视频能够提供直观而精确的控制。现有方法要么直接使用参数化表征(https://huggingface.co/papers?q=parametric%20representations),但无法处理多镜头生成;要么合成交叉配对数据(https://huggingface.co/papers?q=cross-paired%20data),但这面临数据稀缺问题,导致在复杂的相机运动克隆(https://huggingface.co/papers?q=camera%20motion%20cloning)中表现不佳。为解决这些问题,我们提出了一种通用的相机运动表征,将相机编码为网格运动视频(https://huggingface.co/papers?q=grid%20motion%20videos)。这种相机网格(https://huggingface.co/papers?q=camera%20grid)以视觉方式表示相机参数(https://huggingface.co/papers?q=camera%20parameters),并支持集成多种轨迹以实现多镜头视频生成(https://huggingface.co/papers?q=video%20generation)。在此基础上,我们提出了 OmniDirector,这是一个统一的框架,在百万级相机网格(https://huggingface.co/papers?q=camera%20grid)-视频对上训练,协调角色、动作和相机,为多模态扩散变换器(https://huggingface.co/papers?q=multimodal%20diffusion%20transformers)提供导演级控制(https://huggingface.co/papers?q=director-level%20control)。此外,我们设计了一种新颖的分层提示扩展代理(https://huggingface.co/papers?q=hierarchical%20prompt%20expansion%20agent),通过理解信号关系系统性地描述相机运动和视觉内容,从而和谐地集成不同的控制信号。大量实验证明了我们框架的卓越性能和出色的可控性。项目页面:https://ymlinfeng.github.io/OmniDirector.github.io/
查看 arXiv 页面(https://arxiv.org/abs/2606.13432)查看 PDF(https://arxiv.org/pdf/2606.13432)项目页面(https://ymlinfeng.github.io/OmniDirector.github.io/)GitHub20(https://github.com/lisj575/OmniDirector)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.13432)
在您的代理中获取此论文:
hf papers read 2606.13432
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.13432 即可从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.13432 即可从此页面链接。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.13432 即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
添加此论文到一个收藏集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
OmniHumanoid: 流式跨实体视频生成与无需配对自适应
OmniHumanoid是一个框架,通过分解运动迁移和实体特定自适应,利用非配对数据和分支隔离注意力减少干扰,实现可扩展的跨实体视频生成。
Track2View:通过配对3D点轨迹实现4D一致的相机控制视频生成
Track2View 通过将视频扩散转换器基于配对3D点轨迹进行条件生成,从视频中生成新的相机视角,实现了最先进的视觉质量,并显著降低了旋转和平移误差。
Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成
Pantheon360引入了一种3D感知360度视频扩散框架,该框架使用显式3D缓存来强制执行几何一致性,从而能够从稀疏360度输入中生成高保真数字孪生。
TrackCraft3R: 改造视频扩散变换器用于密集3D追踪
TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。
AnyMo:基于掩码建模的任意模态条件运动生成扩展
本文提出AnyMo,一种统一的多模态人体运动生成框架,结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer,并利用包含超过5000小时运动数据的OmniHuMo数据集,实现在任意模态组合下的高质量合成。