基于时空注意力链的快速4D网格生成

Hugging Face Daily Papers 2026/05/19 00:00 论文

摘要

一种基于时空注意力链的无需训练4D网格生成方法，将创建时间加速至9秒（13倍加速），同时提升时间一致性并扩展到更长的序列，具备零样本追踪和相机估计能力。

4D网格生成最近成为一种从视频中恢复动态3D结构的强大范式，但现有方法速度慢、计算成本高，且难以扩展到更长的序列。我们提出一种无需训练的方法，在加速4D网格生成的同时提升时间对应质量。我们的关键观察是，时间对应在4D主干网络内部的出现远早于其生成的网格在视觉上变得准确。我们利用这一点，构建了一个通用框架，称为时空注意力链，它在空间和时间上传播信息。从锚定网格上的顶点开始，该链将顶点映射为潜在标记。然后追踪潜在空间中的时间对应，并通过潜在到顶点注意力恢复各帧特定的顶点。这种设计避免了昂贵的显式匹配，同时保留了锚定网格细节，从而改善了动态网格几何和时间一致性。与最先进方法相比，我们的方法在9秒内生成一个4D网格，实现13倍加速，同时产生更高质量的结果。此外，我们的方法可扩展到长达16倍的视频，且不降低网格质量。除生成外，改进的对应关系在两项下游任务上实现了有竞争力的零样本性能：2D物体追踪和4D追踪。我们进一步展示，我们的框架可实现可靠的相机估计，这是先前4D网格生成方法不支持的功能。

查看原文

查看缓存全文

缓存时间: 2026/05/20 18:39

论文页面 - Fast 4D Mesh Generation by Spatio-Temporal Attention Chains

来源：https://huggingface.co/papers/2605.19786
发布于 5月19日

由
Samuel (https://huggingface.co/Dvir) 于 5月20日提交

摘要

一种无需训练的4D网格生成方法，利用时空注意力链加速网格创建，同时提升时间对应质量，并支持可扩展的长序列处理。

4D网格生成 (https://huggingface.co/papers?q=4D%20mesh%20generation) 近期已成为从视频中恢复动态3D结构的强大范式，但现有方法速度慢、计算成本高，且难以扩展到更长序列。我们提出了一种无需训练的方法，在加速 4D网格生成 (https://huggingface.co/papers?q=4D%20mesh%20generation) 的同时改善时间对应质量。我们的关键发现是：在4D主干网络生成的网格视觉上变得准确之前，时间对应关系 (https://huggingface.co/papers?q=temporal%20correspondences) 早已在其内部涌现。我们利用这一发现，构建了一个名为时空注意力链 (https://huggingface.co/papers?q=Spatio-Temporal%20Attention%20Chain) 的通用框架，在空间和时间上传播信息。从锚定网格 (https://huggingface.co/papers?q=anchor%20mesh) 的顶点出发，该链将顶点映射到潜变量令牌 (https://huggingface.co/papers?q=latent%20tokens) 上，随后沿潜变量空间中的时间对应关系 (https://huggingface.co/papers?q=temporal%20correspondences) 进行追踪，并通过潜变量到顶点注意力 (https://huggingface.co/papers?q=latent-to-vertex%20attention) 恢复特定帧的顶点。这种设计避免了昂贵显式匹配，同时保留了锚定网格 (https://huggingface.co/papers?q=anchor%20mesh) 的细节，从而改善了动态网格几何形状和时间一致性。与最先进方法相比，我们的方法可在9秒内生成4D网格，实现13倍加速，同时生成更高质量的结果。此外，我们的方法可扩展到长达16倍的视频，且不降低网格质量。除了生成，改进的对应关系还使两种下游任务（2D目标跟踪 (https://huggingface.co/papers?q=2D%20object%20tracking) 和 4D跟踪 (https://huggingface.co/papers?q=4D%20tracking)）具备了有竞争力的零样本性能。我们还进一步证明，该框架能实现可靠的相机估计 (https://huggingface.co/papers?q=camera%20estimation)，这一能力是先前 4D网格生成 (https://huggingface.co/papers?q=4D%20mesh%20generation) 方法所不具备的。

查看 arXiv 页面 (https://arxiv.org/abs/2605.19786) 查看 PDF (https://arxiv.org/pdf/2605.19786) 项目页面 (https://research.nvidia.com/labs/par/fast4dmesh/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.19786)

在您的代理中获取此论文：

hf papers read 2605.19786

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.19786 以在此页面建立链接。

引用此论文的数据集 0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.19786 以在此页面建立链接。

引用此论文的 Spaces 0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.19786 以在此页面建立链接。

包含此论文的合集 0

暂无合集包含此论文

请将此论文添加到一个合集 (https://huggingface.co/new-collection) 中以在此页面建立链接。

基于时空注意力链的快速4D网格生成

论文页面 - Fast 4D Mesh Generation by Spatio-Temporal Attention Chains

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

Helix4D：复杂4D网格生成

JanusMesh: 快速零样本3D视觉幻觉生成——基于跨空间去噪

D4RT：教会 AI 以四维视角观察世界

SpatialAvatar-0：基于多阶段重建的高质量4D头部虚拟形象

Lift4D：协调单视角3D估计用于野外4D重建

提交意见反馈