TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

TrackCraft3R 改造视频扩散变换器，用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐，以比先前方法快1.3倍的速度和少4.6倍的峰值内存，实现了最先进的性能。

从单目视频进行密集3D追踪是动态场景理解的基础。虽然最近的3D基础模型提供了可靠的每帧几何结构，但恢复该几何结构中的物体运动仍然具有挑战性，并且受益于从真实世界视频中学习到的强运动先验。现有的3D追踪器要么遵循从合成数据从头开始训练的迭代范式，要么微调从静态多视图图像学习到的3D重建模型，两者都缺乏真实世界的运动先验。预训练的视频扩散变换器（video DiTs）提供了来自互联网规模视频的丰富时空先验，使其成为3D追踪的有前途的基础。然而，它们生成每帧内容的帧锚定表述与参考锚定的密集3D追踪根本不相匹配，后者必须随时间跟踪来自参考帧的相同物理点。我们提出了TrackCraft3R，这是第一种将视频DiT改造为前馈式密集3D追踪器的方法。给定一个单目视频及其帧锚定的重建点图，TrackCraft3R在一次前向传播中预测一个参考锚定的追踪点图，该点图随时间跟踪第一帧的每个像素，并预测其可见性。我们通过两种设计实现了这一点：(i) 一种双潜在表示，使用每帧几何潜在变量和参考锚定的追踪潜在变量作为密集查询；(ii) 时间RoPE对齐，指定每个追踪潜在变量的目标时间戳。这些设计共同将视频DiTs的每帧生成范式转化为带有LoRA微调的参考锚定追踪表述。TrackCraft3R在标准的稀疏和密集3D追踪基准测试中达到了最先进的性能，同时运行速度快1.3倍，峰值内存使用比最强先前方法少4.6倍。我们进一步展示了对大运动和长视频的鲁棒性。

查看原文

查看缓存全文

缓存时间: 2026/05/14 08:18

论文页面 - TrackCraft3R：将视频扩散Transformer重新用于密集3D跟踪

Source: https://huggingface.co/papers/2605.12587 发表于5月12日

提交者https://huggingface.co/frog123123123123

frog (https://huggingface.co/frog123123123123) 于5月14日

摘要

TrackCraft3R通过将视频扩散Transformer适配为使用双潜在表示和时间RoPE对齐来跟踪跨帧的物理点，从而实现了从单目视频中高效密集3D跟踪。

从单目视频中进行密集3D跟踪是动态场景理解的基础。虽然最近的3D基础模型提供了可靠的逐帧几何信息，但恢复该几何中的物体运动仍然具有挑战性，并且受益于从真实世界视频中学习到的强运动先验。现有的3D跟踪器要么遵循在合成数据上从头训练的迭代范式，要么微调从静态多视图图像学习到的3D重建模型，两者都缺乏真实世界的运动先验。预训练的视频扩散Transformer（video DiTs）从互联网规模视频中提供了丰富的时空先验，使其成为3D跟踪的有前途的基础。然而，它们的帧锚定公式化——生成每一帧的内容——与参考锚定的密集3D跟踪从根本上不匹配，后者必须随时间跟踪来自参考帧的相同物理点。

我们提出了TrackCraft3R，这是第一种将视频DiT重新用作前馈密集3D跟踪器的方法。给定单目视频及其帧锚定重建点图，TrackCraft3R在单次前向传递中预测一个参考锚定跟踪点图，该点图跟踪第一帧的每个像素随时间的变化，同时预测其可见性。我们通过两个设计实现这一点：(i) 双潜在表示，使用逐帧几何潜在和参考锚定跟踪潜在作为密集查询，(ii) 时间RoPE对齐，指定每个跟踪潜在的目标时间戳。这些设计共同将视频DiT的逐帧生成范式转换为具有LoRA微调的参考锚定跟踪公式化。TrackCraft3R在标准稀疏和密集3D跟踪基准上实现了最先进的性能，同时比最强先前方法快1.3倍且峰值内存使用减少4.6倍。我们还展示了对大运动和长视频的鲁棒性。

查看arXiv页面 (https://arxiv.org/abs/2605.12587) 查看PDF (https://arxiv.org/pdf/2605.12587) 项目页面 (https://cvlab-kaist.github.io/TrackCraft3r) GitHub28 (https://github.com/cvlab-kaist/TrackCraft3r) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12587)

在您的代理中获取此论文：

hf papers read 2605\.12587

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无与此论文关联的模型

在模型 README.md 中引用 arxiv.org/abs/2605.12587 即可从此页面链接到该论文。

引用此论文的数据集 0

暂无与此论文关联的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.12587 即可从此页面链接到该论文。

引用此论文的Space 0

暂无与此论文关联的Space

在 Space README.md 中引用 arxiv.org/abs/2605.12587 即可从此页面链接到该论文。

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

论文页面 - TrackCraft3R：将视频扩散Transformer重新用于密集3D跟踪

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的Space 0

包含此论文的收藏集 1

相似文章

Lite3R：一种高效的模型无关前馈3D重建框架

AnyRecon：基于视频扩散模型的任意视角 3D 重建

Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成

VideoMDM: 基于2D监督的3D人体运动生成方法

用于流式 3D 重建的几何上下文 Transformer

提交意见反馈