AlloSpatial：面向基础模型空间推理的代理框架

Hugging Face Daily Papers 2026/06/08 00:00 论文

摘要

AlloSpatial是一个代理框架，通过将自我中心观察转换为结构化的全局空间表征，利用认知映射和工具使用推理，增强基础模型的空间推理能力。在基准测试中性能提升5%-18%，并通过冷启动强化学习胜过更大的模型。

多模态基础模型（MFMs）取得了显著进展，但在物理世界的空间推理方面仍然脆弱。一个关键瓶颈在于它们无法将局部自我中心观察转换为全局异中心空间表征。为了解决这个问题，我们提出了AlloSpatial，一个面向基础模型中异中心空间认知的代理框架。AlloSpatial引入了World2Mind，一个即插即用的认知映射沙箱，将自我中心观察转换为结构化的异中心先验知识，包括异中心空间树（Allocentric-Spatial Trees）和路线图，支持查询物体拓扑、几何关系、可通行性和轨迹。为了在噪声重建和模糊视觉证据下可靠地利用这些先验知识，AlloSpatial引入了空间推理工具集（Spatial Reasoning Harness），用于工具使用判断、模态解耦线索收集和几何-语义仲裁。我们进一步在Qwen3-VL中通过冷启动强化学习内化这一过程，采用工具门控轨迹级奖励。在VSI-Bench和MindCube上的实验表明，AlloSpatial在无训练设置下将专有模型的性能提升5%-18%，而仅使用ASTs（异中心空间树）即使在视觉输入被移除时也能支持强大的空间推理。训练后的AlloSpatial代理进一步超越了更大的通用模型和具有竞争力的空间基线，表明结构化异中心表征、主动工具使用和可验证推理为构建具备空间能力的基础模型提供了一条有前景的途径。

查看原文

查看缓存全文

缓存时间: 2026/06/15 12:58

论文页面 - AlloSpatial: 面向基础模型空间推理的智能体框架

来源：https://huggingface.co/papers/2606.08952 发布时间：6月8日

提交者：https://huggingface.co/RSW233

RSW (https://huggingface.co/RSW233)于6月15日

摘要

AlloSpatial框架通过将自我中心观测转换为结构化异中心表征，并借助认知映射和工具使用推理实现可靠的空间认知，从而增强了基础模型的空间推理能力。

多模态基础模型（Multimodal Foundation Models (https://huggingface.co/papers?q=Multimodal%20Foundation%20Models)，MFMs）已取得显著进展，但在物理世界的空间推理方面仍然脆弱。一个关键瓶颈在于它们无法将局部的自我中心观测（egocentric observations (https://huggingface.co/papers?q=egocentric%20observations)）转化为全局的异中心空间表征（allocentric spatial representation (https://huggingface.co/papers?q=allocentric%20spatial%20representation)）。为解决这一问题，我们提出AlloSpatial——一个面向基础模型异中心空间认知的智能体框架。AlloSpatial引入了World2Mind，一个即插即用的认知映射（cognitive mapping (https://huggingface.co/papers?q=cognitive%20mapping)）沙盒，可将自我中心观测转化为结构化的异中心先验，包括异中心空间树（Allocentric-Spatial Trees (https://huggingface.co/papers?q=Allocentric-Spatial%20Trees)）和路径图，支持查询物体拓扑结构、几何关系、可通行性和轨迹。为在嘈杂重建和模糊视觉证据下可靠地利用这些先验，AlloSpatial引入了一个空间推理框架（Spatial Reasoning Harness (https://huggingface.co/papers?q=Spatial%20Reasoning%20Harness)），用于工具使用判断（tool-use judgment (https://huggingface.co/papers?q=tool-use%20judgment)）、模态解耦线索收集（modality-decoupled cue collection (https://huggingface.co/papers?q=modality-decoupled%20cue%20collection)）和几何-语义仲裁（geometry-semantic arbitration (https://huggingface.co/papers?q=geometry-semantic%20arbitration)）。我们进一步通过冷启动强化学习（cold-start reinforcement learning (https://huggingface.co/papers?q=cold-start%20reinforcement%20learning)）和框架门控的轨迹级奖励（trajectory-level reward (https://huggingface.co/papers?q=trajectory-level%20reward)），将这一过程内化到Qwen3-VL中。在VSI-Bench和MindCube上的实验表明，在无训练设置下，AlloSpatial将专有模型的性能提升了5%-18%；即使在移除视觉输入后，ASTs本身也能支持强大的空间推理。训练后的AlloSpatial智能体进一步超越了更大的通用模型和具有竞争力的空间基线，表明结构化异中心表征、主动工具使用和可验证推理为构建具备空间能力的基础模型提供了一条有前景的路径。

查看arXiv页面 (https://arxiv.org/abs/2606.08952)查看PDF (https://arxiv.org/pdf/2606.08952)项目页面 (https://github.com/Heathcliff-saku/AlloSpatial)GitHub9 (https://github.com/Heathcliff-saku/AlloSpatial)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.08952)

在您的智能体中获取此论文：

hf papers read 2606\.08952

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

请在模型README.md中引用arxiv.org/abs/2606.08952以将其链接至此页面。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集README.md中引用arxiv.org/abs/2606.08952以将其链接至此页面。

引用此论文的Space0

没有Space链接到此论文

请在Space README.md中引用arxiv.org/abs/2606.08952以将其链接至此页面。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加至一个收藏 (https://huggingface.co/new-collection) 以将其链接至此页面。

AlloSpatial：面向基础模型空间推理的代理框架

论文页面 - AlloSpatial: 面向基础模型空间推理的智能体框架

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

SpatialClaw: 重新思考智能体空间推理的动作接口

物体能提供什么，而非它们是什么：用于可供性推理的功能潜在空间

用想象力思考：基于世界模拟器的主动式视觉空间推理

SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力

从模型扩展到系统扩展：在自主AI中扩展架构框架

提交意见反馈