TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

Hugging Face Daily Papers 论文

摘要

TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。

从单目视频进行密集3D追踪是动态场景理解的基础。虽然最近的3D基础模型提供了可靠的每帧几何结构,但恢复该几何结构中的物体运动仍然具有挑战性,并且受益于从真实世界视频中学习到的强运动先验。现有的3D追踪器要么遵循从合成数据从头开始训练的迭代范式,要么微调从静态多视图图像学习到的3D重建模型,两者都缺乏真实世界的运动先验。预训练的视频扩散变换器(video DiTs)提供了来自互联网规模视频的丰富时空先验,使其成为3D追踪的有前途的基础。然而,它们生成每帧内容的帧锚定表述与参考锚定的密集3D追踪根本不相匹配,后者必须随时间跟踪来自参考帧的相同物理点。我们提出了TrackCraft3R,这是第一种将视频DiT改造为前馈式密集3D追踪器的方法。给定一个单目视频及其帧锚定的重建点图,TrackCraft3R在一次前向传播中预测一个参考锚定的追踪点图,该点图随时间跟踪第一帧的每个像素,并预测其可见性。我们通过两种设计实现了这一点:(i) 一种双潜在表示,使用每帧几何潜在变量和参考锚定的追踪潜在变量作为密集查询;(ii) 时间RoPE对齐,指定每个追踪潜在变量的目标时间戳。这些设计共同将视频DiTs的每帧生成范式转化为带有LoRA微调的参考锚定追踪表述。TrackCraft3R在标准的稀疏和密集3D追踪基准测试中达到了最先进的性能,同时运行速度快1.3倍,峰值内存使用比最强先前方法少4.6倍。我们进一步展示了对大运动和长视频的鲁棒性。
查看原文
查看缓存全文

缓存时间: 2026/05/14 08:18

论文页面 - TrackCraft3R:将视频扩散Transformer重新用于密集3D跟踪

Source: https://huggingface.co/papers/2605.12587 发表于5月12日

·

提交者https://huggingface.co/frog123123123123

frog (https://huggingface.co/frog123123123123) 于5月14日

摘要

TrackCraft3R通过将视频扩散Transformer适配为使用双潜在表示和时间RoPE对齐来跟踪跨帧的物理点,从而实现了从单目视频中高效密集3D跟踪。

从单目视频中进行密集3D跟踪是动态场景理解的基础。虽然最近的3D基础模型提供了可靠的逐帧几何信息,但恢复该几何中的物体运动仍然具有挑战性,并且受益于从真实世界视频中学习到的强运动先验。现有的3D跟踪器要么遵循在合成数据上从头训练的迭代范式,要么微调从静态多视图图像学习到的3D重建模型,两者都缺乏真实世界的运动先验。预训练的视频扩散Transformervideo DiTs)从互联网规模视频中提供了丰富的时空先验,使其成为3D跟踪的有前途的基础。然而,它们的帧锚定公式化——生成每一帧的内容——与参考锚定的密集3D跟踪从根本上不匹配,后者必须随时间跟踪来自参考帧的相同物理点。

我们提出了TrackCraft3R,这是第一种将视频DiT重新用作前馈密集3D跟踪器的方法。给定单目视频及其帧锚定重建点图,TrackCraft3R在单次前向传递中预测一个参考锚定跟踪点图,该点图跟踪第一帧的每个像素随时间的变化,同时预测其可见性。我们通过两个设计实现这一点:(i) 双潜在表示,使用逐帧几何潜在参考锚定跟踪潜在作为密集查询,(ii) 时间RoPE对齐,指定每个跟踪潜在的目标时间戳。这些设计共同将视频DiT的逐帧生成范式转换为具有LoRA微调参考锚定跟踪公式化。TrackCraft3R在标准稀疏和密集3D跟踪基准上实现了最先进的性能,同时比最强先前方法快1.3倍且峰值内存使用减少4.6倍。我们还展示了对大运动和长视频的鲁棒性。

查看arXiv页面 (https://arxiv.org/abs/2605.12587) 查看PDF (https://arxiv.org/pdf/2605.12587) 项目页面 (https://cvlab-kaist.github.io/TrackCraft3r) GitHub28 (https://github.com/cvlab-kaist/TrackCraft3r) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12587)

在您的代理中获取此论文:

hf papers read 2605\.12587

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无与此论文关联的模型

在模型 README.md 中引用 arxiv.org/abs/2605.12587 即可从此页面链接到该论文。

引用此论文的数据集 0

暂无与此论文关联的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.12587 即可从此页面链接到该论文。

引用此论文的Space 0

暂无与此论文关联的Space

在 Space README.md 中引用 arxiv.org/abs/2605.12587 即可从此页面链接到该论文。

包含此论文的收藏集 1

相似文章

Lite3R:一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers

Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。

VideoMDM: 基于2D监督的3D人体运动生成方法

Hugging Face Daily Papers

VideoMDM利用扩散框架,通过2D重投影损失和3D运动正则化器,从2D姿态中训练3D人体运动先验,在无需3D真实数据的情况下实现了接近3D监督的性能。

用于流式 3D 重建的几何上下文 Transformer

Papers with Code Trending

介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。