用于鲁棒多视图三维重建的几何感知表示去噪
摘要
提出GARD,一种基于扩散的框架,在前馈三维重建器的特征空间中操作,从退化输入中联合恢复场景几何和高质量图像。
查看缓存全文
缓存时间: 2026/05/27 02:47
论文页面 - 面向鲁棒多视图三维重建的几何感知表示去噪
来源:https://huggingface.co/papers/2605.26230
摘要
一个新颖的基于扩散的多视图三维重建框架,通过在三维重建器的特征空间中操作,从退化输入中同时恢复场景几何与高质量图像。
多视图三维重建(https://huggingface.co/papers?q=Multi-view%203D%20reconstruction)随着前馈三维重建模型的出现取得了显著进展。然而,这些模型通常在理想、无退化的成像条件下训练和评估,而真实世界观测往往包含与之显著不同的退化。因此,提高退化条件下多视图三维重建(https://huggingface.co/papers?q=multi-view%203D%20reconstruction)的鲁棒性仍然是一项重要挑战。我们提出几何感知表示去噪(GARD),一种新颖的框架,直接在前馈三维重建模型的特征空间(https://huggingface.co/papers?q=feature%20space)中执行基于扩散的多视图恢复。该设计利用三维重建器的几何感知特征表示,有效恢复精确的场景几何。此外,通过使用额外的RGB图像解码器(https://huggingface.co/papers?q=RGB%20image%20decoder),精炼的表示还可用于恢复高质量的RGB图像,从而同时恢复三维场景几何与高质量图像。在Depth Anything 3(DA3)基准上的综合实验证明了所提GARD框架的有效性。
查看arXiv页面(https://arxiv.org/abs/2605.26230)查看PDF(https://arxiv.org/pdf/2605.26230)项目页面(https://cvlab-kaist.github.io/GARD/)GitHub10(https://github.com/cvlab-kaist/GARD)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.26230)
在您的agent中获取此论文:
hf papers read 2605.26230
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.26230即可从本页面链接。
引用该论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.26230即可从本页面链接。
引用该论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.26230即可从本页面链接。
包含该论文的收藏集0
没有收藏集包含此论文
将该论文添加到收藏集(https://huggingface.co/new-collection)即可从本页面链接。
相似文章
AnyRecon:基于视频扩散模型的任意视角 3D 重建
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
GenRecon:结合生成先验的多视图3D场景重建
GenRecon提出了一种3D场景重建方法,将生成式3D先验与多视图图像条件相结合,实现了室内环境的高保真、可编辑网格重建,性能比现有方法提升16%。
Geometry-Aware Tabular Diffusion
介绍了Geometry-Aware Tabular Diffusion(GATD),该方法通过显式的成对几何特征增强表格扩散去噪器。在十个基准测试上取得了最先进的性能,同时使用的参数显著更少。
基于多视角基础模型的统一全景几何估计
PaGeR 适配了多视角透视基础模型 Depth Anything 3,利用固定的立方体贴图表示,从单张等距柱状投影图像中预测尺度不变深度、度量深度、表面法线和天空分割,同时保持 VRAM 和运行时间恒定。本文还发布了 ZüriPano 和 PanoInfinigen 数据集。
VidSplat:利用几何引导的视频扩散先验进行高斯泼溅重建
VidSplat 是一种无需训练的生成式重建框架,它利用视频扩散先验,通过合成新视角,从稀疏输入中恢复完整的 3D 场景。