基于多视角基础模型的统一全景几何估计
摘要
PaGeR 适配了多视角透视基础模型 Depth Anything 3,利用固定的立方体贴图表示,从单张等距柱状投影图像中预测尺度不变深度、度量深度、表面法线和天空分割,同时保持 VRAM 和运行时间恒定。本文还发布了 ZüriPano 和 PanoInfinigen 数据集。
查看缓存全文
缓存时间: 2026/05/29 03:00
论文页面 - 统一全景几何估计:基于多视角基础模型
来源:https://huggingface.co/papers/2605.26368
摘要:PaGeR将透视3D基础模型转化为单次处理的360°几何估计器——从一张等距柱状投影图像中,它能在全全景分辨率下预测尺度不变深度、公制度量深度(以米为单位)、表面法线和天空分割。
我们提出PaGeR(全景几何重建),通过固定的6×504×504立方体贴图,将多视角透视基础模型(Depth Anything 3)提升至全景领域,因此无论输入分辨率如何,显存和运行时间都保持恒定。单次前向传播即可返回尺度不变+公制度量深度、世界坐标系法线和天空掩码。我们还发布了两个新数据集——ZüriPano(真实评估)和PanoInfinigen(合成训练)。
🔗 项目页面:https://pager360.github.io/ · 🤗 演示:https://huggingface.co/spaces/prs-eth/PaGeR · 合集(模型+数据集):https://huggingface.co/collections/prs-eth/pager-697241d06b3733a6f18e4d39 · 代码:https://github.com/prs-eth/PaGeR
欢迎提问!
相似文章
PanoWorld: 迈向360度全景世界中的空间超感知
PanoWorld引入了球形空间交叉注意力机制用于全景推理,解决了多模态大语言模型在360度空间理解中的局限性。它构建了一个大规模管线用于几何感知监督,并提出一个诊断性基准,在多个基准上取得了最先进的结果。
GenRecon:结合生成先验的多视图3D场景重建
GenRecon提出了一种3D场景重建方法,将生成式3D先验与多视图图像条件相结合,实现了室内环境的高保真、可编辑网格重建,性能比现有方法提升16%。
Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成
Pantheon360引入了一种3D感知360度视频扩散框架,该框架使用显式3D缓存来强制执行几何一致性,从而能够从稀疏360度输入中生成高保真数字孪生。
TencentARC/Pixal3D
Pixal3D是由TencentARC和微软开发的高保真单图转3D模型,通过反向投影显式地将像素特征提升到3D,实现接近重建级别的几何结构和PBR纹理。该模型已被SIGGRAPH 2026接收,并提供推理代码和演示。
用于鲁棒多视图三维重建的几何感知表示去噪
提出GARD,一种基于扩散的框架,在前馈三维重建器的特征空间中操作,从退化输入中联合恢复场景几何和高质量图像。