AnyRecon:基于视频扩散模型的任意视角 3D 重建
摘要
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
查看缓存全文
缓存时间: 2026/04/22 06:17
论文页面 - AnyRecon:基于视频扩散模型的任意视角三维重建
来源:https://huggingface.co/papers/2604.19747
摘要
AnyRecon 利用扩散模型,从任意稀疏输入实现可扩展的三维重建,通过持久场景记忆与几何感知条件,提升几何一致性。
稀疏视角三维重建(https://huggingface.co/papers?q=Sparse-view%203D%20reconstruction)对日常拍摄建模至关重要,但对非生成式重建(https://huggingface.co/papers?q=generative%20reconstruction)仍具挑战。现有扩散方法通过合成新视角缓解此问题,但通常仅条件于一两帧,限制几何一致性,难以扩展至大场景或多样场景。我们提出 AnyRecon,一个可从任意无序稀疏输入重建的可扩展框架,保留显式几何控制,同时支持灵活的条件帧数量。为支持长程条件,方法构建持久全局场景记忆(https://huggingface.co/papers?q=global%20scene%20memory),通过前置拍摄视角缓存(https://huggingface.co/papers?q=capture%20view%20cache)实现,并移除时序压缩(https://huggingface.co/papers?q=temporal%20compression),在大视角变化下保持帧级对应。除更好的生成模型外,我们发现生成与重建的协同对大场景至关重要。因此,引入几何感知条件(https://huggingface.co/papers?q=geometry-aware%20conditioning)策略,通过显式三维几何记忆(https://huggingface.co/papers?q=3D%20geometric%20memory)与几何驱动的拍摄视角检索,耦合生成与重建。为确保效率,结合 4 步扩散蒸馏(https://huggingface.co/papers?q=diffusion%20distillation)与上下文窗口稀疏注意力(https://huggingface.co/papers?q=context-window%20sparse%20attention),降低二次复杂度。大量实验表明,在不规则输入、大视角间隔及长轨迹下,重建稳健且可扩展。
查看 arXiv 页面(https://arxiv.org/abs/2604.19747)
查看 PDF(https://arxiv.org/pdf/2604.19747)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19747)
在本地代理中获取该论文:
hf papers read 2604.19747
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 1
Yutian10/AnyRecon 约 3 小时前更新(https://huggingface.co/Yutian10/AnyRecon)
引用该论文的数据集 0
暂无数据集链接该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19747,即可在此页面显示。
引用该论文的 Spaces 0
暂无 Spaces 链接该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19747,即可在此页面显示。
包含该论文的合集 0
暂无合集包含该论文
将该论文添加到合集(https://huggingface.co/new-collection),即可在此页面显示。
相似文章
用于流式 3D 重建的几何上下文 Transformer
介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。
表征先于像素:语义引导的分层视频预测
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
TT4D:一种基于单目视频进行乒乓球4D重建的Pipeline与数据集
本文介绍了TT4D,这是一种新颖的Pipeline和大规模数据集,旨在从单目视频中重建乒乓球比赛的4D场景。该方案采用独特的“先升维”策略,在进行时间分割之前,先估计乒乓球的3D轨迹和旋转,从而即使在存在遮挡的情况下也能实现稳健的重建。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。