基于多视角基础模型的统一全景几何估计

Hugging Face Daily Papers 2026/05/25 00:00 论文

panoramic-geometry depth-estimation surface-normals multi-view foundation-models computer-vision cubemap

摘要

PaGeR 适配了多视角透视基础模型 Depth Anything 3，利用固定的立方体贴图表示，从单张等距柱状投影图像中预测尺度不变深度、度量深度、表面法线和天空分割，同时保持 VRAM 和运行时间恒定。本文还发布了 ZüriPano 和 PanoInfinigen 数据集。

透视图像的几何估计已经取得了巨大进展，成熟到现成的基础模型不仅能够从多视角图像重建 3D 场景结构，甚至能从单视图实现。一个自然的扩展是全景图的 3D 重建，其令人兴奋的前景在于能够从单张全景图像恢复完整的 360 度场景。在这项工作中，我们引入了 PaGeR（全景几何重建），这是一个将专为透视图像设计的强大 3D 基础模型提升到全景领域的框架。我们的策略是从一个预训练的 3D 重建 Transformer 出发，将其转变为一个统一的高性能模型，该模型能够从透视图像和全向图像中，通过单次前向传播预测尺度不变深度、度量深度、表面法线和天空掩码。通过将架构改动降至最低，并在训练中混合透视图像和全景图像，PaGeR 保留了底层基础模型丰富的 3D 先验，同时学会了从单张全景图中估计几何一致的 360 度场景。我们在室内和室外环境中广泛测试了我们的方法，发现它在各种场景中均达到了最先进的性能，并展现出优异的零样本表现。

查看原文

查看缓存全文

缓存时间: 2026/05/29 03:00

论文页面 - 统一全景几何估计：基于多视角基础模型

来源：https://huggingface.co/papers/2605.26368
摘要：PaGeR将透视3D基础模型转化为单次处理的360°几何估计器——从一张等距柱状投影图像中，它能在全全景分辨率下预测尺度不变深度、公制度量深度（以米为单位）、表面法线和天空分割。

我们提出PaGeR（全景几何重建），通过固定的6×504×504立方体贴图，将多视角透视基础模型（Depth Anything 3）提升至全景领域，因此无论输入分辨率如何，显存和运行时间都保持恒定。单次前向传播即可返回尺度不变+公制度量深度、世界坐标系法线和天空掩码。我们还发布了两个新数据集——ZüriPano（真实评估）和PanoInfinigen（合成训练）。

🔗 项目页面：https://pager360.github.io/ · 🤗 演示：https://huggingface.co/spaces/prs-eth/PaGeR · 合集（模型+数据集）：https://huggingface.co/collections/prs-eth/pager-697241d06b3733a6f18e4d39 · 代码：https://github.com/prs-eth/PaGeR

欢迎提问！

基于多视角基础模型的统一全景几何估计

论文页面 - 统一全景几何估计：基于多视角基础模型

相似文章

PanoWorld：真实世界全景生成

通过几何感知预训练增强上下文全景生成

PanoWorld: 迈向360度全景世界中的空间超感知

同一场景，两种深度：探索单目基础模型中的几何模糊性

MoVerse: 实时视频世界建模与全景高斯脚手架

提交意见反馈