用于鲁棒多视图三维重建的几何感知表示去噪

Hugging Face Daily Papers 论文

摘要

提出GARD,一种基于扩散的框架,在前馈三维重建器的特征空间中操作,从退化输入中联合恢复场景几何和高质量图像。

随着前馈三维重建模型的出现,多视图三维重建取得了显著进展。然而,这些模型通常在理想、无退化的成像条件下训练和评估,而实际观察中往往包含与这些条件显著不同的退化。因此,提高退化条件下多视图三维重建的鲁棒性仍然是一个重要挑战。我们提出几何感知表示去噪(Geometry-Aware Representation Denoising, GARD),一种新颖的框架,直接在前馈三维重建模型的特征空间中执行基于扩散的多视图恢复。该设计利用三维重建器的几何感知特征表示,有效恢复准确的场景几何。此外,通过使用额外的RGB图像解码器,精化的表示还可用于恢复高质量RGB图像,从而同时恢复三维场景几何和高质量图像。在Depth Anything 3(DA3)基准上的全面实验证明了所提出的GARD框架的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/27 02:47

论文页面 - 面向鲁棒多视图三维重建的几何感知表示去噪

来源:https://huggingface.co/papers/2605.26230

摘要

一个新颖的基于扩散的多视图三维重建框架,通过在三维重建器的特征空间中操作,从退化输入中同时恢复场景几何与高质量图像。

多视图三维重建(https://huggingface.co/papers?q=Multi-view%203D%20reconstruction)随着前馈三维重建模型的出现取得了显著进展。然而,这些模型通常在理想、无退化的成像条件下训练和评估,而真实世界观测往往包含与之显著不同的退化。因此,提高退化条件下多视图三维重建(https://huggingface.co/papers?q=multi-view%203D%20reconstruction)的鲁棒性仍然是一项重要挑战。我们提出几何感知表示去噪(GARD),一种新颖的框架,直接在前馈三维重建模型的特征空间(https://huggingface.co/papers?q=feature%20space)中执行基于扩散的多视图恢复。该设计利用三维重建器的几何感知特征表示,有效恢复精确的场景几何。此外,通过使用额外的RGB图像解码器(https://huggingface.co/papers?q=RGB%20image%20decoder),精炼的表示还可用于恢复高质量的RGB图像,从而同时恢复三维场景几何与高质量图像。在Depth Anything 3(DA3)基准上的综合实验证明了所提GARD框架的有效性。

查看arXiv页面(https://arxiv.org/abs/2605.26230)查看PDF(https://arxiv.org/pdf/2605.26230)项目页面(https://cvlab-kaist.github.io/GARD/)GitHub10(https://github.com/cvlab-kaist/GARD)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.26230)

在您的agent中获取此论文:

hf papers read 2605.26230

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.26230即可从本页面链接。

引用该论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.26230即可从本页面链接。

引用该论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.26230即可从本页面链接。

包含该论文的收藏集0

没有收藏集包含此论文

将该论文添加到收藏集(https://huggingface.co/new-collection)即可从本页面链接。

相似文章

GenRecon:结合生成先验的多视图3D场景重建

Hugging Face Daily Papers

GenRecon提出了一种3D场景重建方法,将生成式3D先验与多视图图像条件相结合,实现了室内环境的高保真、可编辑网格重建,性能比现有方法提升16%。

Geometry-Aware Tabular Diffusion

arXiv cs.LG

介绍了Geometry-Aware Tabular Diffusion(GATD),该方法通过显式的成对几何特征增强表格扩散去噪器。在十个基准测试上取得了最先进的性能,同时使用的参数显著更少。

基于多视角基础模型的统一全景几何估计

Hugging Face Daily Papers

PaGeR 适配了多视角透视基础模型 Depth Anything 3,利用固定的立方体贴图表示,从单张等距柱状投影图像中预测尺度不变深度、度量深度、表面法线和天空分割,同时保持 VRAM 和运行时间恒定。本文还发布了 ZüriPano 和 PanoInfinigen 数据集。