基于时空注意力链的快速4D网格生成
摘要
一种基于时空注意力链的无需训练4D网格生成方法,将创建时间加速至9秒(13倍加速),同时提升时间一致性并扩展到更长的序列,具备零样本追踪和相机估计能力。
查看缓存全文
缓存时间: 2026/05/20 18:39
论文页面 - Fast 4D Mesh Generation by Spatio-Temporal Attention Chains
来源:https://huggingface.co/papers/2605.19786
发布于 5月19日
·
由
Samuel (https://huggingface.co/Dvir) 于 5月20日 提交
摘要
一种无需训练的4D网格生成方法,利用时空注意力链加速网格创建,同时提升时间对应质量,并支持可扩展的长序列处理。
4D网格生成 (https://huggingface.co/papers?q=4D%20mesh%20generation) 近期已成为从视频中恢复动态3D结构的强大范式,但现有方法速度慢、计算成本高,且难以扩展到更长序列。我们提出了一种无需训练的方法,在加速 4D网格生成 (https://huggingface.co/papers?q=4D%20mesh%20generation) 的同时改善时间对应质量。我们的关键发现是:在4D主干网络生成的网格视觉上变得准确之前,时间对应关系 (https://huggingface.co/papers?q=temporal%20correspondences) 早已在其内部涌现。我们利用这一发现,构建了一个名为 时空注意力链 (https://huggingface.co/papers?q=Spatio-Temporal%20Attention%20Chain) 的通用框架,在空间和时间上传播信息。从 锚定网格 (https://huggingface.co/papers?q=anchor%20mesh) 的顶点出发,该链将顶点映射到 潜变量令牌 (https://huggingface.co/papers?q=latent%20tokens) 上,随后沿潜变量空间中的 时间对应关系 (https://huggingface.co/papers?q=temporal%20correspondences) 进行追踪,并通过 潜变量到顶点注意力 (https://huggingface.co/papers?q=latent-to-vertex%20attention) 恢复特定帧的顶点。这种设计避免了昂贵显式匹配,同时保留了 锚定网格 (https://huggingface.co/papers?q=anchor%20mesh) 的细节,从而改善了动态网格几何形状和时间一致性。与最先进方法相比,我们的方法可在9秒内生成4D网格,实现13倍加速,同时生成更高质量的结果。此外,我们的方法可扩展到长达16倍的视频,且不降低网格质量。除了生成,改进的对应关系还使两种下游任务(2D目标跟踪 (https://huggingface.co/papers?q=2D%20object%20tracking) 和 4D跟踪 (https://huggingface.co/papers?q=4D%20tracking))具备了有竞争力的零样本性能。我们还进一步证明,该框架能实现可靠的 相机估计 (https://huggingface.co/papers?q=camera%20estimation),这一能力是先前 4D网格生成 (https://huggingface.co/papers?q=4D%20mesh%20generation) 方法所不具备的。
查看 arXiv 页面 (https://arxiv.org/abs/2605.19786) 查看 PDF (https://arxiv.org/pdf/2605.19786) 项目页面 (https://research.nvidia.com/labs/par/fast4dmesh/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.19786)
在您的代理中获取此论文:
hf papers read 2605.19786
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.19786 以在此页面建立链接。
引用此论文的数据集 0
暂无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.19786 以在此页面建立链接。
引用此论文的 Spaces 0
暂无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.19786 以在此页面建立链接。
包含此论文的合集 0
暂无合集包含此论文
请将此论文添加到一个合集 (https://huggingface.co/new-collection) 中以在此页面建立链接。
相似文章
Helix4D:复杂4D网格生成
Helix4D 提出了一种从视频生成高质量动态4D网格的框架,通过扩展Trellis2,引入跨帧注意力机制和4D时间编码,在不增加参数的情况下重新利用冗余的空间RoPE频带,从而实现这一目标。
D4RT:教会 AI 以四维视角观察世界
DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。
4DThinker:利用 4D 意象进行动态空间理解
4DThinker 是一个新框架,使视觉-语言模型能够利用 4D 潜在心理意象执行动态空间推理。该论文引入了可扩展的数据生成方法以及新颖的微调技术(包括 4D 强化学习),以提升模型在复杂动态任务上的性能。
Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成
Pantheon360引入了一种3D感知360度视频扩散框架,该框架使用显式3D缓存来强制执行几何一致性,从而能够从稀疏360度输入中生成高保真数字孪生。
NeuROK: 生成式4D神经物体运动学
本文介绍了NeuROK,一种数据驱动的生成式4D神经物体运动学方法,该方法学习潜在空间和基于变换器的编码器-解码器,以模拟静态物体在各种物理条件下的真实时间变形,克服了预定义物理模型的局限性。