PanoWorld: 迈向360度全景世界中的空间超感知

Hugging Face Daily Papers 2026/05/13 00:00 论文

摘要

PanoWorld引入了球形空间交叉注意力机制用于全景推理，解决了多模态大语言模型在360度空间理解中的局限性。它构建了一个大规模管线用于几何感知监督，并提出一个诊断性基准，在多个基准上取得了最先进的结果。

多模态大语言模型在主导的透视图像范式下仍然难以进行空间理解，这种范式继承了类似人类感知的狭窄视野。对于导航、机器人搜索和三维场景理解，360度全景感知通过一次捕捉整个周围环境，提供了一种超感知形式。然而，现有的多模态大语言模型管线通常将全景图分解为多个透视视图，使得等距柱状投影（ERP）的球形结构在很大程度上变得隐式。在本文中，我们研究全景原生理解，这要求多模态大语言模型将ERP全景图作为一个连续的、以观察者为中心的空间进行推理。为此，我们首先定义了全景原生理解的关键能力，包括语义锚定、球面定位、参考系变换和深度感知的三维空间推理。然后，我们构建了一个大规模元数据构建管线，将混合来源的ERP全景图转换为几何感知、语言接地和深度感知的监督信号，并将这些信号实例化为能力对齐的指令微调数据。在模型方面，我们引入了带有球形空间交叉注意力的PanoWorld，它将球形几何注入视觉流。我们进一步构建了PanoSpace-Bench，一个用于评估ERP原生空间推理的诊断性基准。实验表明，PanoWorld在PanoSpace-Bench、H* Bench和R2R-CE Val-Unseen基准上显著优于闭源和开源基线。这些结果表明，鲁棒的全景推理需要专门的全景原生监督和几何感知模型适配。所有源代码和所提出的数据将公开发布。

查看原文

查看缓存全文

缓存时间: 2026/05/15 08:24

论文页面 - PanoWorld：迈向360°全景世界中的空间超级感知

来源：https://huggingface.co/papers/2605.13169 发布于 5 月 13 日

提交者 https://huggingface.co/xichenhku

xichen (https://huggingface.co/xichenhku) 于 5 月 15 日

摘要

PanoWorld 采用球形空间交叉注意力，通过利用等距柱状投影结构和几何感知监督实现全景推理。

多模态大型实验室模型（Multimodal large laboratory models，MLLMs）在主流透视图像范式下仍难以进行空间理解，这种范式继承了类人感知的窄视野。对于导航、机器人搜索和 3D 场景理解，360 度全景感知（panoramic sensing）通过一次性捕捉整个周围环境提供了一种超感知形式。然而，现有的 MLLM 流水线通常将全景图分解为多个透视视图，使得等距柱状投影（equirectangular projection，ERP）的球面结构在很大程度上变得隐式。在本文中，我们研究全景原生理解（pano-native understanding），这要求 MLLM 将 ERP 全景图作为一个连续的、以观察者为中心的空间进行推理。为此，我们首先定义了全景原生理解的关键能力，包括语义锚定、球面定位、参考系变换和深度感知的 3D 空间推理（spatial reasoning）。然后，我们构建了一个大规模的元数据构建流水线，将混合来源的 ERP 全景图转化为几何感知（geometry-aware）、语言接地（language-grounded）和深度感知监督（depth-aware supervision），并将这些信号实例化为能力对齐的指令微调（instruction tuning）数据。在模型方面，我们引入了带球形空间交叉注意力（Spherical Spatial Cross-Attention）的 PanoWorld，它将球面几何注入视觉流。我们进一步构建了 PanoSpace-Bench，这是一个用于评估 ERP 原生空间推理（spatial reasoning）的诊断基准（diagnostic benchmark）。实验表明，PanoWorld 在 PanoSpace-Bench、H* Bench 和 R2R-CE Val-Unseen 基准上显著优于专有和开源基线。这些结果表明，鲁棒的全景推理需要专门的全景原生监督和几何感知（geometry-aware）模型适配。所有源代码和所提出的数据将公开发布。

查看 arXiv 页面 (https://arxiv.org/abs/2605.13169) 查看 PDF (https://arxiv.org/pdf/2605.13169) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13169)

在你的 Agent 中获取此论文：

hf papers read 2605\.13169

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型 0

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。

引用该论文的数据集 0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。

引用该论文的 Space 0

无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。

PanoWorld: 迈向360度全景世界中的空间超感知

论文页面 - PanoWorld：迈向360°全景世界中的空间超级感知

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Space 0

包含该论文的集合 1

相似文章

HY-World 2.0：用于重建、生成和模拟三维世界的多模态世界模型

4DThinker：利用 4D 意象进行动态空间理解

在统一的多模态理解与生成中唤醒空间智能

MultiWorld：可扩展的多智能体多视角视频世界模型

检索、整合与综合：空间-语义接地潜层视觉推理

提交意见反馈