Track2View:通过配对3D点轨迹实现4D一致的相机控制视频生成
摘要
Track2View 通过将视频扩散转换器基于配对3D点轨迹进行条件生成,从视频中生成新的相机视角,实现了最先进的视觉质量,并显著降低了旋转和平移误差。
查看缓存全文
缓存时间: 2026/06/16 19:33
论文页面 - Track2View: 基于配对3D点轨迹的4D一致性相机控制视频生成
来源: https://huggingface.co/papers/2606.15534
摘要
Track2View 利用3D点轨迹建立显式的时空对应关系,从视频中生成新颖的相机视角,在视觉质量和相机精度上均优于现有方法。
从新颖的相机视角重新渲染现有视频,要求输出遵循指定的相机轨迹 (https://huggingface.co/papers?q=camera%20trajectory),同时保持原始场景每一帧的外观和动态。现有方法依赖逐帧姿态嵌入、带噪声的点云渲染或隐式学习对应关系,这些方法均未提供源像素与目标像素之间的显式、时间连续链接。我们提出 Track2View,该方法将视频扩散 Transformer (https://huggingface.co/papers?q=video%20diffusion%20transformer) 的条件设置为配对3D点轨迹 (https://huggingface.co/papers?q=3D%20point%20tracks):即场景点投影到源相机视图和目标相机视图的稀疏轨迹。这些轨迹提供了显式的时空对应关系 (https://huggingface.co/papers?q=spatiotemporal%20correspondences),通过构造保证时间连续性,编码了内容应该出现的位置和时间。Track2View 的核心是一个双视角轨迹调节器 (https://huggingface.co/papers?q=dual-view%20track%20conditioner),通过无参数几何操作和学习到的时间聚合 (https://huggingface.co/papers?q=temporal%20aggregation),将视觉上下文从源视图传递到目标视图,从而确保对任意相机轨迹的泛化能力,而无需记忆特定运动。我们进一步引入了一个数据整理管线,通过在时间上拼接的多相机视角对 (https://huggingface.co/papers?q=multi-camera%20view%20pairs) 上运行3D点追踪器 (https://huggingface.co/papers?q=3D%20point%20tracker) 来提取一对一的轨迹对应关系。在包含静态和动态场景的400个视频基准测试中,Track2View 在视觉质量、视角同步和相机精度方面均取得了最先进的结果,相比领先基线,旋转误差降低了30-65%,平移误差降低了61-72%。项目页面位于此 https URL: https://qjizhi.github.io/track2view
查看 arXiv 页面 (https://arxiv.org/abs/2606.15534) 查看 PDF (https://arxiv.org/pdf/2606.15534) 项目页面 (https://qjizhi.github.io/track2view/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.15534)
在您的智能体中获取此论文:
hf papers read 2606.15534
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.15534 以从此页面链接。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.15534 以从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.15534 以从此页面链接。
包含此论文的收藏 0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
TrackCraft3R: 改造视频扩散变换器用于密集3D追踪
TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。
Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成
Pantheon360引入了一种3D感知360度视频扩散框架,该框架使用显式3D缓存来强制执行几何一致性,从而能够从稀疏360度输入中生成高保真数字孪生。
VideoMDM: 基于2D监督的3D人体运动生成方法
VideoMDM利用扩散框架,通过2D重投影损失和3D运动正则化器,从2D姿态中训练3D人体运动先验,在无需3D真实数据的情况下实现了接近3D监督的性能。
OmniDirector: 通用多镜头相机克隆,无需交叉配对数据
一个统一的框架,通过网格运动视频和多模态扩散变换器实现相机运动克隆,无需交叉配对数据即可实现导演级别的控制。
AnyRecon:基于视频扩散模型的任意视角 3D 重建
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。