GenRecon:结合生成先验的多视图3D场景重建
摘要
GenRecon提出了一种3D场景重建方法,将生成式3D先验与多视图图像条件相结合,实现了室内环境的高保真、可编辑网格重建,性能比现有方法提升16%。
查看缓存全文
缓存时间: 2026/05/25 02:35
论文页面 - GenRecon:融合生成式先验的多视角3D场景重建
来源:https://huggingface.co/papers/2605.23888
摘要
一种新颖的3D场景重建方法,将生成式3D先验与多视角图像条件结合,为室内环境生成高保真、可编辑的网格重建结果。
我们提出了一种从多视角RGB图像进行高保真3D场景重建(https://huggingface.co/papers?q=3D%20scene%20reconstruction)的新方法,该方法将重建过程与强大的生成式3D先验(https://huggingface.co/papers?q=generative%203D%20prior)紧密结合。我们将场景重建视为在一组空间局部化、相互重叠的块(这些块共同覆盖整个场景)上的条件式3D生成(https://huggingface.co/papers?q=conditional%203D%20generation),从而将生成能力扩展到大规模场景范围。关键的是,我们继承了最先进生成式形状模型(例如我们采用的Trellis.2(https://huggingface.co/papers?q=Trellis.2))的保真度和完整性,并将其推广到场景级别。为此,我们提出了一种基于投影的条件机制(https://huggingface.co/papers?q=projection-based%20conditioning%20mechanism),该机制将带有位姿的多视角图像特征(https://huggingface.co/papers?q=multi-view%20image%20features)提升为与生成模型对齐的连贯3D表示(https://huggingface.co/papers?q=coherent%203D%20representation),该表示独立于视角顺序并在空间上锚定于场景,从而生成高保真、多视角一致的几何体。这使得能够将Trellis.2(https://huggingface.co/papers?q=Trellis.2)强大的物体级先验提升到多视角、场景规模的生成,为室内环境产生忠实、可编辑的PBR网格重建(https://huggingface.co/papers?q=PBR%20mesh%20reconstructions)。因此,我们获得了超越尖端重建方法16%的高保真结果。
查看arXiv页面(https://arxiv.org/abs/2605.23888)查看PDF(https://arxiv.org/pdf/2605.23888)项目页面(https://kasothaphie.github.io/GenRecon/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.23888)
在您的Agent中获取此论文:
hf papers read 2605.23888
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.23888 以从此页面链接。
引用本文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.23888 以从此页面链接。
引用本文的Space0
没有Space链接此论文
请在Space README.md 中引用 arxiv.org/abs/2605.23888 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
AnyRecon:基于视频扩散模型的任意视角 3D 重建
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
用于鲁棒多视图三维重建的几何感知表示去噪
提出GARD,一种基于扩散的框架,在前馈三维重建器的特征空间中操作,从退化输入中联合恢复场景几何和高质量图像。
基于多视角基础模型的统一全景几何估计
PaGeR 适配了多视角透视基础模型 Depth Anything 3,利用固定的立方体贴图表示,从单张等距柱状投影图像中预测尺度不变深度、度量深度、表面法线和天空分割,同时保持 VRAM 和运行时间恒定。本文还发布了 ZüriPano 和 PanoInfinigen 数据集。
Sat3DGen:基于单张卫星图像的全面街景级3D场景生成
Sat3DGen采用几何优先的方法,从单张卫星图像生成街景级3D场景,通过新颖的约束条件和训练策略,提高了几何精度和照片级真实感。该方法在VIGOR-OOD基准测试上相比先前工作有显著改进。
VidSplat:利用几何引导的视频扩散先验进行高斯泼溅重建
VidSplat 是一种无需训练的生成式重建框架,它利用视频扩散先验,通过合成新视角,从稀疏输入中恢复完整的 3D 场景。