PanoWorld: 迈向360度全景世界中的空间超感知
摘要
PanoWorld引入了球形空间交叉注意力机制用于全景推理,解决了多模态大语言模型在360度空间理解中的局限性。它构建了一个大规模管线用于几何感知监督,并提出一个诊断性基准,在多个基准上取得了最先进的结果。
查看缓存全文
缓存时间: 2026/05/15 08:24
论文页面 - PanoWorld:迈向360°全景世界中的空间超级感知
来源:https://huggingface.co/papers/2605.13169 发布于 5 月 13 日
·
提交者 https://huggingface.co/xichenhku
xichen (https://huggingface.co/xichenhku) 于 5 月 15 日
摘要
PanoWorld 采用球形空间交叉注意力,通过利用等距柱状投影结构和几何感知监督实现全景推理。
多模态大型实验室模型(Multimodal large laboratory models,MLLMs)在主流透视图像范式下仍难以进行空间理解,这种范式继承了类人感知的窄视野。对于导航、机器人搜索和 3D 场景理解,360 度全景感知(panoramic sensing)通过一次性捕捉整个周围环境提供了一种超感知形式。然而,现有的 MLLM 流水线通常将全景图分解为多个透视视图,使得等距柱状投影(equirectangular projection,ERP)的球面结构在很大程度上变得隐式。在本文中,我们研究全景原生理解(pano-native understanding),这要求 MLLM 将 ERP 全景图作为一个连续的、以观察者为中心的空间进行推理。为此,我们首先定义了全景原生理解的关键能力,包括语义锚定、球面定位、参考系变换和深度感知的 3D 空间推理(spatial reasoning)。然后,我们构建了一个大规模的元数据构建流水线,将混合来源的 ERP 全景图转化为几何感知(geometry-aware)、语言接地(language-grounded)和深度感知监督(depth-aware supervision),并将这些信号实例化为能力对齐的指令微调(instruction tuning)数据。在模型方面,我们引入了带球形空间交叉注意力(Spherical Spatial Cross-Attention)的 PanoWorld,它将球面几何注入视觉流。我们进一步构建了 PanoSpace-Bench,这是一个用于评估 ERP 原生空间推理(spatial reasoning)的诊断基准(diagnostic benchmark)。实验表明,PanoWorld 在 PanoSpace-Bench、H* Bench 和 R2R-CE Val-Unseen 基准上显著优于专有和开源基线。这些结果表明,鲁棒的全景推理需要专门的全景原生监督和几何感知(geometry-aware)模型适配。所有源代码和所提出的数据将公开发布。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13169) 查看 PDF (https://arxiv.org/pdf/2605.13169) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13169)
在你的 Agent 中获取此论文:
hf papers read 2605\.13169
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型 0
无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。
引用该论文的数据集 0
无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。
引用该论文的 Space 0
无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。
包含该论文的集合 1
相似文章
基于多视角基础模型的统一全景几何估计
PaGeR 适配了多视角透视基础模型 Depth Anything 3,利用固定的立方体贴图表示,从单张等距柱状投影图像中预测尺度不变深度、度量深度、表面法线和天空分割,同时保持 VRAM 和运行时间恒定。本文还发布了 ZüriPano 和 PanoInfinigen 数据集。
SpatialWorld: 多模态智能体在真实世界任务中的交互式空间推理基准测试
SpatialWorld是一个统一的基准测试,用于评估多模态智能体在各种真实世界任务中的交互式空间推理能力。结果表明,即使是最强大的模型,其任务成功率也很低。
SpheRoPE:基于球形RoPE的零样本无优化360度全景生成
本文介绍了SpheRoPE,一个零样本且无需优化的框架,它将球形先验注入预训练的扩散变换器中,用于生成360度全景图像和视频,无需重新训练即可克服拓扑约束。
MoVerse: 实时视频世界建模与全景高斯脚手架
MoVerse 通过创建360°全景图和3D高斯脚手架,从单张图像生成实时交互式视频,利用基于扩散的技术实现高效渲染。
PAIWorld: 面向机器人操作的三维一致世界基础模型
PAIWorld 通过几何感知和跨视图注意力机制增强扩散变换器世界模型,提升机器人操作任务中的多视图三维一致性,在基准测试上达到最优结果。