AnyRecon:基于视频扩散模型的任意视角 3D 重建

Hugging Face Daily Papers 论文

摘要

AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。

稀疏视角 3D 重建对于随手拍摄的场景建模至关重要,但在非生成式方法中仍具挑战。现有扩散模型通过合成新视角缓解此问题,但往往仅以一或两帧拍摄图像为条件,限制了几何一致性,也难以扩展到大型或多样化场景。我们提出 AnyRecon,一个可从任意无序稀疏输入重建的可扩展框架,既保留显式几何控制,又支持灵活的条件帧数量。为支持长程条件,我们的方法通过前置拍摄视角缓存构建持久的全局场景记忆,并去除时序压缩,在大视角变化下保持帧级对应。除改进生成模型外,我们发现生成与重建的协同对大规模 3D 场景尤为关键。为此,我们引入几何感知条件策略,通过显式 3D 几何记忆与几何驱动的拍摄视角检索,将生成与重建紧密耦合。为保证效率,我们结合 4 步扩散蒸馏与上下文窗口稀疏注意力,将二次复杂度降低。大量实验表明,该方法在不规则输入、大视角间隔和长轨迹下均能实现稳健且可扩展的重建。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - AnyRecon:基于视频扩散模型的任意视角三维重建

来源:https://huggingface.co/papers/2604.19747

摘要

AnyRecon 利用扩散模型,从任意稀疏输入实现可扩展的三维重建,通过持久场景记忆与几何感知条件,提升几何一致性。

稀疏视角三维重建(https://huggingface.co/papers?q=Sparse-view%203D%20reconstruction)对日常拍摄建模至关重要,但对非生成式重建(https://huggingface.co/papers?q=generative%20reconstruction)仍具挑战。现有扩散方法通过合成新视角缓解此问题,但通常仅条件于一两帧,限制几何一致性,难以扩展至大场景或多样场景。我们提出 AnyRecon,一个可从任意无序稀疏输入重建的可扩展框架,保留显式几何控制,同时支持灵活的条件帧数量。为支持长程条件,方法构建持久全局场景记忆(https://huggingface.co/papers?q=global%20scene%20memory),通过前置拍摄视角缓存(https://huggingface.co/papers?q=capture%20view%20cache)实现,并移除时序压缩(https://huggingface.co/papers?q=temporal%20compression),在大视角变化下保持帧级对应。除更好的生成模型外,我们发现生成与重建的协同对大场景至关重要。因此,引入几何感知条件(https://huggingface.co/papers?q=geometry-aware%20conditioning)策略,通过显式三维几何记忆(https://huggingface.co/papers?q=3D%20geometric%20memory)与几何驱动的拍摄视角检索,耦合生成与重建。为确保效率,结合 4 步扩散蒸馏(https://huggingface.co/papers?q=diffusion%20distillation)与上下文窗口稀疏注意力(https://huggingface.co/papers?q=context-window%20sparse%20attention),降低二次复杂度。大量实验表明,在不规则输入、大视角间隔及长轨迹下,重建稳健且可扩展。

查看 arXiv 页面(https://arxiv.org/abs/2604.19747)
查看 PDF(https://arxiv.org/pdf/2604.19747)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19747)

在本地代理中获取该论文:

hf papers read 2604.19747

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 1

Yutian10/AnyRecon 约 3 小时前更新(https://huggingface.co/Yutian10/AnyRecon)

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.19747,即可在此页面显示。

引用该论文的 Spaces 0

暂无 Spaces 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.19747,即可在此页面显示。

包含该论文的合集 0

暂无合集包含该论文

将该论文添加到合集(https://huggingface.co/new-collection),即可在此页面显示。

相似文章

用于流式 3D 重建的几何上下文 Transformer

Papers with Code Trending

介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。

表征先于像素:语义引导的分层视频预测

Hugging Face Daily Papers

Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。

TT4D:一种基于单目视频进行乒乓球4D重建的Pipeline与数据集

Hugging Face Daily Papers

本文介绍了TT4D,这是一种新颖的Pipeline和大规模数据集,旨在从单目视频中重建乒乓球比赛的4D场景。该方案采用独特的“先升维”策略,在进行时间分割之前,先估计乒乓球的3D轨迹和旋转,从而即使在存在遮挡的情况下也能实现稳健的重建。