AnyRecon:基于视频扩散模型的任意视角 3D 重建
摘要
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
查看缓存全文
缓存时间: 2026/04/22 06:17
论文页面 - AnyRecon:基于视频扩散模型的任意视角三维重建
来源:https://huggingface.co/papers/2604.19747
摘要
AnyRecon 利用扩散模型,从任意稀疏输入实现可扩展的三维重建,通过持久场景记忆与几何感知条件,提升几何一致性。
稀疏视角三维重建(https://huggingface.co/papers?q=Sparse-view%203D%20reconstruction)对日常拍摄建模至关重要,但对非生成式重建(https://huggingface.co/papers?q=generative%20reconstruction)仍具挑战。现有扩散方法通过合成新视角缓解此问题,但通常仅条件于一两帧,限制几何一致性,难以扩展至大场景或多样场景。我们提出 AnyRecon,一个可从任意无序稀疏输入重建的可扩展框架,保留显式几何控制,同时支持灵活的条件帧数量。为支持长程条件,方法构建持久全局场景记忆(https://huggingface.co/papers?q=global%20scene%20memory),通过前置拍摄视角缓存(https://huggingface.co/papers?q=capture%20view%20cache)实现,并移除时序压缩(https://huggingface.co/papers?q=temporal%20compression),在大视角变化下保持帧级对应。除更好的生成模型外,我们发现生成与重建的协同对大场景至关重要。因此,引入几何感知条件(https://huggingface.co/papers?q=geometry-aware%20conditioning)策略,通过显式三维几何记忆(https://huggingface.co/papers?q=3D%20geometric%20memory)与几何驱动的拍摄视角检索,耦合生成与重建。为确保效率,结合 4 步扩散蒸馏(https://huggingface.co/papers?q=diffusion%20distillation)与上下文窗口稀疏注意力(https://huggingface.co/papers?q=context-window%20sparse%20attention),降低二次复杂度。大量实验表明,在不规则输入、大视角间隔及长轨迹下,重建稳健且可扩展。
查看 arXiv 页面(https://arxiv.org/abs/2604.19747)
查看 PDF(https://arxiv.org/pdf/2604.19747)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19747)
在本地代理中获取该论文:
hf papers read 2604.19747
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 1
Yutian10/AnyRecon 约 3 小时前更新(https://huggingface.co/Yutian10/AnyRecon)
引用该论文的数据集 0
暂无数据集链接该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19747,即可在此页面显示。
引用该论文的 Spaces 0
暂无 Spaces 链接该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19747,即可在此页面显示。
包含该论文的合集 0
暂无合集包含该论文
将该论文添加到合集(https://huggingface.co/new-collection),即可在此页面显示。
相似文章
GenRecon:结合生成先验的多视图3D场景重建
GenRecon提出了一种3D场景重建方法,将生成式3D先验与多视图图像条件相结合,实现了室内环境的高保真、可编辑网格重建,性能比现有方法提升16%。
用于鲁棒多视图三维重建的几何感知表示去噪
提出GARD,一种基于扩散的框架,在前馈三维重建器的特征空间中操作,从退化输入中联合恢复场景几何和高质量图像。
VidSplat:利用几何引导的视频扩散先验进行高斯泼溅重建
VidSplat 是一种无需训练的生成式重建框架,它利用视频扩散先验,通过合成新视角,从稀疏输入中恢复完整的 3D 场景。
视频扩散模型在手部运动重建中的惊人有效性
ViDiHand 利用预训练的视频扩散模型表示,直接从自我中心视频帧中重建4D手部运动,无需检测器或优化,在ARCTIC、HOT3D和HOI4D上优于现有方法。
Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成
Pantheon360引入了一种3D感知360度视频扩散框架,该框架使用显式3D缓存来强制执行几何一致性,从而能够从稀疏360度输入中生成高保真数字孪生。