TrackCraft3R: 改造视频扩散变换器用于密集3D追踪
摘要
TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。
查看缓存全文
缓存时间: 2026/05/14 08:18
论文页面 - TrackCraft3R:将视频扩散Transformer重新用于密集3D跟踪
Source: https://huggingface.co/papers/2605.12587 发表于5月12日
·
提交者https://huggingface.co/frog123123123123
frog (https://huggingface.co/frog123123123123) 于5月14日
摘要
TrackCraft3R通过将视频扩散Transformer适配为使用双潜在表示和时间RoPE对齐来跟踪跨帧的物理点,从而实现了从单目视频中高效密集3D跟踪。
从单目视频中进行密集3D跟踪是动态场景理解的基础。虽然最近的3D基础模型提供了可靠的逐帧几何信息,但恢复该几何中的物体运动仍然具有挑战性,并且受益于从真实世界视频中学习到的强运动先验。现有的3D跟踪器要么遵循在合成数据上从头训练的迭代范式,要么微调从静态多视图图像学习到的3D重建模型,两者都缺乏真实世界的运动先验。预训练的视频扩散Transformer(video DiTs)从互联网规模视频中提供了丰富的时空先验,使其成为3D跟踪的有前途的基础。然而,它们的帧锚定公式化——生成每一帧的内容——与参考锚定的密集3D跟踪从根本上不匹配,后者必须随时间跟踪来自参考帧的相同物理点。
我们提出了TrackCraft3R,这是第一种将视频DiT重新用作前馈密集3D跟踪器的方法。给定单目视频及其帧锚定重建点图,TrackCraft3R在单次前向传递中预测一个参考锚定跟踪点图,该点图跟踪第一帧的每个像素随时间的变化,同时预测其可见性。我们通过两个设计实现这一点:(i) 双潜在表示,使用逐帧几何潜在和参考锚定跟踪潜在作为密集查询,(ii) 时间RoPE对齐,指定每个跟踪潜在的目标时间戳。这些设计共同将视频DiT的逐帧生成范式转换为具有LoRA微调的参考锚定跟踪公式化。TrackCraft3R在标准稀疏和密集3D跟踪基准上实现了最先进的性能,同时比最强先前方法快1.3倍且峰值内存使用减少4.6倍。我们还展示了对大运动和长视频的鲁棒性。
查看arXiv页面 (https://arxiv.org/abs/2605.12587) 查看PDF (https://arxiv.org/pdf/2605.12587) 项目页面 (https://cvlab-kaist.github.io/TrackCraft3r) GitHub28 (https://github.com/cvlab-kaist/TrackCraft3r) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12587)
在您的代理中获取此论文:
hf papers read 2605\.12587
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无与此论文关联的模型
在模型 README.md 中引用 arxiv.org/abs/2605.12587 即可从此页面链接到该论文。
引用此论文的数据集 0
暂无与此论文关联的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.12587 即可从此页面链接到该论文。
引用此论文的Space 0
暂无与此论文关联的Space
在 Space README.md 中引用 arxiv.org/abs/2605.12587 即可从此页面链接到该论文。
包含此论文的收藏集 1
相似文章
Lite3R:一种高效的模型无关前馈3D重建框架
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。
AnyRecon:基于视频扩散模型的任意视角 3D 重建
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成
Pantheon360引入了一种3D感知360度视频扩散框架,该框架使用显式3D缓存来强制执行几何一致性,从而能够从稀疏360度输入中生成高保真数字孪生。
VideoMDM: 基于2D监督的3D人体运动生成方法
VideoMDM利用扩散框架,通过2D重投影损失和3D运动正则化器,从2D姿态中训练3D人体运动先验,在无需3D真实数据的情况下实现了接近3D监督的性能。
用于流式 3D 重建的几何上下文 Transformer
介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。