PanoWorld: 迈向360度全景世界中的空间超感知
摘要
PanoWorld引入了球形空间交叉注意力机制用于全景推理,解决了多模态大语言模型在360度空间理解中的局限性。它构建了一个大规模管线用于几何感知监督,并提出一个诊断性基准,在多个基准上取得了最先进的结果。
查看缓存全文
缓存时间: 2026/05/15 08:24
论文页面 - PanoWorld:迈向360°全景世界中的空间超级感知
来源:https://huggingface.co/papers/2605.13169 发布于 5 月 13 日
·
提交者 https://huggingface.co/xichenhku
xichen (https://huggingface.co/xichenhku) 于 5 月 15 日
摘要
PanoWorld 采用球形空间交叉注意力,通过利用等距柱状投影结构和几何感知监督实现全景推理。
多模态大型实验室模型(Multimodal large laboratory models,MLLMs)在主流透视图像范式下仍难以进行空间理解,这种范式继承了类人感知的窄视野。对于导航、机器人搜索和 3D 场景理解,360 度全景感知(panoramic sensing)通过一次性捕捉整个周围环境提供了一种超感知形式。然而,现有的 MLLM 流水线通常将全景图分解为多个透视视图,使得等距柱状投影(equirectangular projection,ERP)的球面结构在很大程度上变得隐式。在本文中,我们研究全景原生理解(pano-native understanding),这要求 MLLM 将 ERP 全景图作为一个连续的、以观察者为中心的空间进行推理。为此,我们首先定义了全景原生理解的关键能力,包括语义锚定、球面定位、参考系变换和深度感知的 3D 空间推理(spatial reasoning)。然后,我们构建了一个大规模的元数据构建流水线,将混合来源的 ERP 全景图转化为几何感知(geometry-aware)、语言接地(language-grounded)和深度感知监督(depth-aware supervision),并将这些信号实例化为能力对齐的指令微调(instruction tuning)数据。在模型方面,我们引入了带球形空间交叉注意力(Spherical Spatial Cross-Attention)的 PanoWorld,它将球面几何注入视觉流。我们进一步构建了 PanoSpace-Bench,这是一个用于评估 ERP 原生空间推理(spatial reasoning)的诊断基准(diagnostic benchmark)。实验表明,PanoWorld 在 PanoSpace-Bench、H* Bench 和 R2R-CE Val-Unseen 基准上显著优于专有和开源基线。这些结果表明,鲁棒的全景推理需要专门的全景原生监督和几何感知(geometry-aware)模型适配。所有源代码和所提出的数据将公开发布。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13169) 查看 PDF (https://arxiv.org/pdf/2605.13169) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13169)
在你的 Agent 中获取此论文:
hf papers read 2605\.13169
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型 0
无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。
引用该论文的数据集 0
无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。
引用该论文的 Space 0
无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2605.13169 即可从此页面链接。
包含该论文的集合 1
相似文章
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。
4DThinker:利用 4D 意象进行动态空间理解
4DThinker 是一个新框架,使视觉-语言模型能够利用 4D 潜在心理意象执行动态空间推理。该论文引入了可扩展的数据生成方法以及新颖的微调技术(包括 4D 强化学习),以提升模型在复杂动态任务上的性能。
在统一的多模态理解与生成中唤醒空间智能
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。
MultiWorld:可扩展的多智能体多视角视频世界模型
MultiWorld 是一个统一的多智能体多视角视频世界建模框架,通过多智能体条件模块与全局状态编码器,在精准控制多智能体行为的同时保持多视角一致性。
检索、整合与综合:空间-语义接地潜层视觉推理
本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。