基于多视角基础模型的统一全景几何估计

Hugging Face Daily Papers 论文

摘要

PaGeR 适配了多视角透视基础模型 Depth Anything 3,利用固定的立方体贴图表示,从单张等距柱状投影图像中预测尺度不变深度、度量深度、表面法线和天空分割,同时保持 VRAM 和运行时间恒定。本文还发布了 ZüriPano 和 PanoInfinigen 数据集。

透视图像的几何估计已经取得了巨大进展,成熟到现成的基础模型不仅能够从多视角图像重建 3D 场景结构,甚至能从单视图实现。一个自然的扩展是全景图的 3D 重建,其令人兴奋的前景在于能够从单张全景图像恢复完整的 360 度场景。在这项工作中,我们引入了 PaGeR(全景几何重建),这是一个将专为透视图像设计的强大 3D 基础模型提升到全景领域的框架。我们的策略是从一个预训练的 3D 重建 Transformer 出发,将其转变为一个统一的高性能模型,该模型能够从透视图像和全向图像中,通过单次前向传播预测尺度不变深度、度量深度、表面法线和天空掩码。通过将架构改动降至最低,并在训练中混合透视图像和全景图像,PaGeR 保留了底层基础模型丰富的 3D 先验,同时学会了从单张全景图中估计几何一致的 360 度场景。我们在室内和室外环境中广泛测试了我们的方法,发现它在各种场景中均达到了最先进的性能,并展现出优异的零样本表现。
查看原文
查看缓存全文

缓存时间: 2026/05/29 03:00

论文页面 - 统一全景几何估计:基于多视角基础模型

来源:https://huggingface.co/papers/2605.26368
摘要:PaGeR将透视3D基础模型转化为单次处理的360°几何估计器——从一张等距柱状投影图像中,它能在全全景分辨率下预测尺度不变深度、公制度量深度(以米为单位)、表面法线和天空分割。

我们提出PaGeR(全景几何重建),通过固定的6×504×504立方体贴图,将多视角透视基础模型(Depth Anything 3)提升至全景领域,因此无论输入分辨率如何,显存和运行时间都保持恒定。单次前向传播即可返回尺度不变+公制度量深度、世界坐标系法线和天空掩码。我们还发布了两个新数据集——ZüriPano(真实评估)和PanoInfinigen(合成训练)。

🔗 项目页面:https://pager360.github.io/ · 🤗 演示:https://huggingface.co/spaces/prs-eth/PaGeR · 合集(模型+数据集):https://huggingface.co/collections/prs-eth/pager-697241d06b3733a6f18e4d39 · 代码:https://github.com/prs-eth/PaGeR

欢迎提问!

相似文章

PanoWorld: 迈向360度全景世界中的空间超感知

Hugging Face Daily Papers

PanoWorld引入了球形空间交叉注意力机制用于全景推理,解决了多模态大语言模型在360度空间理解中的局限性。它构建了一个大规模管线用于几何感知监督,并提出一个诊断性基准,在多个基准上取得了最先进的结果。

GenRecon:结合生成先验的多视图3D场景重建

Hugging Face Daily Papers

GenRecon提出了一种3D场景重建方法,将生成式3D先验与多视图图像条件相结合,实现了室内环境的高保真、可编辑网格重建,性能比现有方法提升16%。

TencentARC/Pixal3D

Hugging Face Models Trending

Pixal3D是由TencentARC和微软开发的高保真单图转3D模型,通过反向投影显式地将像素特征提升到3D,实现接近重建级别的几何结构和PBR纹理。该模型已被SIGGRAPH 2026接收,并提供推理代码和演示。