基于时空注意力链的快速4D网格生成

Hugging Face Daily Papers 论文

摘要

一种基于时空注意力链的无需训练4D网格生成方法,将创建时间加速至9秒(13倍加速),同时提升时间一致性并扩展到更长的序列,具备零样本追踪和相机估计能力。

4D网格生成最近成为一种从视频中恢复动态3D结构的强大范式,但现有方法速度慢、计算成本高,且难以扩展到更长的序列。我们提出一种无需训练的方法,在加速4D网格生成的同时提升时间对应质量。我们的关键观察是,时间对应在4D主干网络内部的出现远早于其生成的网格在视觉上变得准确。我们利用这一点,构建了一个通用框架,称为时空注意力链,它在空间和时间上传播信息。从锚定网格上的顶点开始,该链将顶点映射为潜在标记。然后追踪潜在空间中的时间对应,并通过潜在到顶点注意力恢复各帧特定的顶点。这种设计避免了昂贵的显式匹配,同时保留了锚定网格细节,从而改善了动态网格几何和时间一致性。与最先进方法相比,我们的方法在9秒内生成一个4D网格,实现13倍加速,同时产生更高质量的结果。此外,我们的方法可扩展到长达16倍的视频,且不降低网格质量。除生成外,改进的对应关系在两项下游任务上实现了有竞争力的零样本性能:2D物体追踪和4D追踪。我们进一步展示,我们的框架可实现可靠的相机估计,这是先前4D网格生成方法不支持的功能。
查看原文
查看缓存全文

缓存时间: 2026/05/20 18:39

论文页面 - Fast 4D Mesh Generation by Spatio-Temporal Attention Chains

来源:https://huggingface.co/papers/2605.19786
发布于 5月19日

·


Samuel (https://huggingface.co/Dvir) 于 5月20日 提交

摘要

一种无需训练的4D网格生成方法,利用时空注意力链加速网格创建,同时提升时间对应质量,并支持可扩展的长序列处理。

4D网格生成 (https://huggingface.co/papers?q=4D%20mesh%20generation) 近期已成为从视频中恢复动态3D结构的强大范式,但现有方法速度慢、计算成本高,且难以扩展到更长序列。我们提出了一种无需训练的方法,在加速 4D网格生成 (https://huggingface.co/papers?q=4D%20mesh%20generation) 的同时改善时间对应质量。我们的关键发现是:在4D主干网络生成的网格视觉上变得准确之前,时间对应关系 (https://huggingface.co/papers?q=temporal%20correspondences) 早已在其内部涌现。我们利用这一发现,构建了一个名为 时空注意力链 (https://huggingface.co/papers?q=Spatio-Temporal%20Attention%20Chain) 的通用框架,在空间和时间上传播信息。从 锚定网格 (https://huggingface.co/papers?q=anchor%20mesh) 的顶点出发,该链将顶点映射到 潜变量令牌 (https://huggingface.co/papers?q=latent%20tokens) 上,随后沿潜变量空间中的 时间对应关系 (https://huggingface.co/papers?q=temporal%20correspondences) 进行追踪,并通过 潜变量到顶点注意力 (https://huggingface.co/papers?q=latent-to-vertex%20attention) 恢复特定帧的顶点。这种设计避免了昂贵显式匹配,同时保留了 锚定网格 (https://huggingface.co/papers?q=anchor%20mesh) 的细节,从而改善了动态网格几何形状和时间一致性。与最先进方法相比,我们的方法可在9秒内生成4D网格,实现13倍加速,同时生成更高质量的结果。此外,我们的方法可扩展到长达16倍的视频,且不降低网格质量。除了生成,改进的对应关系还使两种下游任务(2D目标跟踪 (https://huggingface.co/papers?q=2D%20object%20tracking) 和 4D跟踪 (https://huggingface.co/papers?q=4D%20tracking))具备了有竞争力的零样本性能。我们还进一步证明,该框架能实现可靠的 相机估计 (https://huggingface.co/papers?q=camera%20estimation),这一能力是先前 4D网格生成 (https://huggingface.co/papers?q=4D%20mesh%20generation) 方法所不具备的。

查看 arXiv 页面 (https://arxiv.org/abs/2605.19786) 查看 PDF (https://arxiv.org/pdf/2605.19786) 项目页面 (https://research.nvidia.com/labs/par/fast4dmesh/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.19786)

在您的代理中获取此论文:

hf papers read 2605.19786

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.19786 以在此页面建立链接。

引用此论文的数据集 0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.19786 以在此页面建立链接。

引用此论文的 Spaces 0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.19786 以在此页面建立链接。

包含此论文的合集 0

暂无合集包含此论文

请将此论文添加到一个合集 (https://huggingface.co/new-collection) 中以在此页面建立链接。

相似文章

Helix4D:复杂4D网格生成

Hugging Face Daily Papers

Helix4D 提出了一种从视频生成高质量动态4D网格的框架,通过扩展Trellis2,引入跨帧注意力机制和4D时间编码,在不增加参数的情况下重新利用冗余的空间RoPE频带,从而实现这一目标。

D4RT:教会 AI 以四维视角观察世界

Google DeepMind Blog

DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。

4DThinker:利用 4D 意象进行动态空间理解

Hugging Face Daily Papers

4DThinker 是一个新框架,使视觉-语言模型能够利用 4D 潜在心理意象执行动态空间推理。该论文引入了可扩展的数据生成方法以及新颖的微调技术(包括 4D 强化学习),以提升模型在复杂动态任务上的性能。

NeuROK: 生成式4D神经物体运动学

Hugging Face Daily Papers

本文介绍了NeuROK,一种数据驱动的生成式4D神经物体运动学方法,该方法学习潜在空间和基于变换器的编码器-解码器,以模拟静态物体在各种物理条件下的真实时间变形,克服了预定义物理模型的局限性。