PanoWorld: 迈向360度全景世界中的空间超感知

Hugging Face Daily Papers 论文

摘要

PanoWorld引入了球形空间交叉注意力机制用于全景推理,解决了多模态大语言模型在360度空间理解中的局限性。它构建了一个大规模管线用于几何感知监督,并提出一个诊断性基准,在多个基准上取得了最先进的结果。

多模态大语言模型在主导的透视图像范式下仍然难以进行空间理解,这种范式继承了类似人类感知的狭窄视野。对于导航、机器人搜索和三维场景理解,360度全景感知通过一次捕捉整个周围环境,提供了一种超感知形式。然而,现有的多模态大语言模型管线通常将全景图分解为多个透视视图,使得等距柱状投影(ERP)的球形结构在很大程度上变得隐式。在本文中,我们研究全景原生理解,这要求多模态大语言模型将ERP全景图作为一个连续的、以观察者为中心的空间进行推理。为此,我们首先定义了全景原生理解的关键能力,包括语义锚定、球面定位、参考系变换和深度感知的三维空间推理。然后,我们构建了一个大规模元数据构建管线,将混合来源的ERP全景图转换为几何感知、语言接地和深度感知的监督信号,并将这些信号实例化为能力对齐的指令微调数据。在模型方面,我们引入了带有球形空间交叉注意力的PanoWorld,它将球形几何注入视觉流。我们进一步构建了PanoSpace-Bench,一个用于评估ERP原生空间推理的诊断性基准。实验表明,PanoWorld在PanoSpace-Bench、H* Bench和R2R-CE Val-Unseen基准上显著优于闭源和开源基线。这些结果表明,鲁棒的全景推理需要专门的全景原生监督和几何感知模型适配。所有源代码和所提出的数据将公开发布。
查看原文
查看缓存全文

缓存时间: 2026/05/15 08:24

论文页面 - PanoWorld:迈向360°全景世界中的空间超级感知

来源:https://huggingface.co/papers/2605.13169 发布于 5 月 13 日

·

提交者 https://huggingface.co/xichenhku

xichen (https://huggingface.co/xichenhku) 于 5 月 15 日

摘要

PanoWorld 采用球形空间交叉注意力,通过利用等距柱状投影结构和几何感知监督实现全景推理。

多模态大型实验室模型(Multimodal large laboratory models,MLLMs)在主流透视图像范式下仍难以进行空间理解,这种范式继承了类人感知的窄视野。对于导航、机器人搜索和 3D 场景理解,360 度全景感知(panoramic sensing)通过一次性捕捉整个周围环境提供了一种超感知形式。然而,现有的 MLLM 流水线通常将全景图分解为多个透视视图,使得等距柱状投影(equirectangular projection,ERP)的球面结构在很大程度上变得隐式。在本文中,我们研究全景原生理解(pano-native understanding),这要求 MLLM 将 ERP 全景图作为一个连续的、以观察者为中心的空间进行推理。为此,我们首先定义了全景原生理解的关键能力,包括语义锚定、球面定位、参考系变换和深度感知的 3D 空间推理(spatial reasoning)。然后,我们构建了一个大规模的元数据构建流水线,将混合来源的 ERP 全景图转化为几何感知(geometry-aware)、语言接地(language-grounded)和深度感知监督(depth-aware supervision),并将这些信号实例化为能力对齐的指令微调(instruction tuning)数据。在模型方面,我们引入了带球形空间交叉注意力(Spherical Spatial Cross-Attention)的 PanoWorld,它将球面几何注入视觉流。我们进一步构建了 PanoSpace-Bench,这是一个用于评估 ERP 原生空间推理(spatial reasoning)的诊断基准(diagnostic benchmark)。实验表明,PanoWorld 在 PanoSpace-Bench、H* Bench 和 R2R-CE Val-Unseen 基准上显著优于专有和开源基线。这些结果表明,鲁棒的全景推理需要专门的全景原生监督和几何感知(geometry-aware)模型适配。所有源代码和所提出的数据将公开发布。

查看 arXiv 页面 (https://arxiv.org/abs/2605.13169) 查看 PDF (https://arxiv.org/pdf/2605.13169) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13169)

在你的 Agent 中获取此论文:

hf papers read 2605\.13169

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型 0

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。

引用该论文的数据集 0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。

引用该论文的 Space 0

无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。

包含该论文的集合 1

相似文章

4DThinker:利用 4D 意象进行动态空间理解

Hugging Face Daily Papers

4DThinker 是一个新框架,使视觉-语言模型能够利用 4D 潜在心理意象执行动态空间推理。该论文引入了可扩展的数据生成方法以及新颖的微调技术(包括 4D 强化学习),以提升模型在复杂动态任务上的性能。

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。

检索、整合与综合:空间-语义接地潜层视觉推理

arXiv cs.CL

本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。