Track2View:通过配对3D点轨迹实现4D一致的相机控制视频生成

Hugging Face Daily Papers 论文

摘要

Track2View 通过将视频扩散转换器基于配对3D点轨迹进行条件生成,从视频中生成新的相机视角,实现了最先进的视觉质量,并显著降低了旋转和平移误差。

从新相机视角重新渲染现有视频要求输出遵循指定的相机轨迹,同时保持原始场景每一帧的外观和动态。现有方法依赖逐帧姿态嵌入、带噪声的点云渲染或隐式学习对应关系,但均未提供源像素与目标像素之间显式、时间连续的连接。我们提出Track2View,通过将视频扩散转换器基于配对3D点轨迹进行条件生成:这些轨迹是场景点投影到源和目标相机视图的稀疏轨迹。这些轨迹提供了显式的时空对应关系,从构造上就是时间连续的,编码了内容在何时何地出现。Track2View的核心是一个双视角轨迹条件模块,通过无参数几何操作和学习的时间聚合将视觉上下文从源视图传输到目标视图,确保对任意相机轨迹的泛化能力,而无需记忆特定运动。我们还引入了一个数据整理管线,通过在时间上拼接的多相机视图对上运行3D点跟踪器来提取一对一轨迹对应关系。在一个涵盖静态和动态场景的400视频基准测试上,Track2View在视觉质量、视角同步和相机精度方面取得了最先进的结果,相对于领先基线,旋转误差降低了30-65%,平移误差降低了61-72%。项目页面请访问此 https URL:https://qjizhi.github.io/track2view
查看原文
查看缓存全文

缓存时间: 2026/06/16 19:33

论文页面 - Track2View: 基于配对3D点轨迹的4D一致性相机控制视频生成

来源: https://huggingface.co/papers/2606.15534

摘要

Track2View 利用3D点轨迹建立显式的时空对应关系,从视频中生成新颖的相机视角,在视觉质量和相机精度上均优于现有方法。

从新颖的相机视角重新渲染现有视频,要求输出遵循指定的相机轨迹 (https://huggingface.co/papers?q=camera%20trajectory),同时保持原始场景每一帧的外观和动态。现有方法依赖逐帧姿态嵌入、带噪声的点云渲染或隐式学习对应关系,这些方法均未提供源像素与目标像素之间的显式、时间连续链接。我们提出 Track2View,该方法将视频扩散 Transformer (https://huggingface.co/papers?q=video%20diffusion%20transformer) 的条件设置为配对3D点轨迹 (https://huggingface.co/papers?q=3D%20point%20tracks):即场景点投影到源相机视图和目标相机视图的稀疏轨迹。这些轨迹提供了显式的时空对应关系 (https://huggingface.co/papers?q=spatiotemporal%20correspondences),通过构造保证时间连续性,编码了内容应该出现的位置和时间。Track2View 的核心是一个双视角轨迹调节器 (https://huggingface.co/papers?q=dual-view%20track%20conditioner),通过无参数几何操作和学习到的时间聚合 (https://huggingface.co/papers?q=temporal%20aggregation),将视觉上下文从源视图传递到目标视图,从而确保对任意相机轨迹的泛化能力,而无需记忆特定运动。我们进一步引入了一个数据整理管线,通过在时间上拼接的多相机视角对 (https://huggingface.co/papers?q=multi-camera%20view%20pairs) 上运行3D点追踪器 (https://huggingface.co/papers?q=3D%20point%20tracker) 来提取一对一的轨迹对应关系。在包含静态和动态场景的400个视频基准测试中,Track2View 在视觉质量、视角同步和相机精度方面均取得了最先进的结果,相比领先基线,旋转误差降低了30-65%,平移误差降低了61-72%。项目页面位于此 https URL: https://qjizhi.github.io/track2view

查看 arXiv 页面 (https://arxiv.org/abs/2606.15534) 查看 PDF (https://arxiv.org/pdf/2606.15534) 项目页面 (https://qjizhi.github.io/track2view/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.15534)

在您的智能体中获取此论文:

hf papers read 2606.15534

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.15534 以从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.15534 以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.15534 以从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

Hugging Face Daily Papers

TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。

VideoMDM: 基于2D监督的3D人体运动生成方法

Hugging Face Daily Papers

VideoMDM利用扩散框架,通过2D重投影损失和3D运动正则化器,从2D姿态中训练3D人体运动先验,在无需3D真实数据的情况下实现了接近3D监督的性能。