AlloSpatial:面向基础模型空间推理的代理框架

Hugging Face Daily Papers 论文

摘要

AlloSpatial是一个代理框架,通过将自我中心观察转换为结构化的全局空间表征,利用认知映射和工具使用推理,增强基础模型的空间推理能力。在基准测试中性能提升5%-18%,并通过冷启动强化学习胜过更大的模型。

多模态基础模型(MFMs)取得了显著进展,但在物理世界的空间推理方面仍然脆弱。一个关键瓶颈在于它们无法将局部自我中心观察转换为全局异中心空间表征。为了解决这个问题,我们提出了AlloSpatial,一个面向基础模型中异中心空间认知的代理框架。AlloSpatial引入了World2Mind,一个即插即用的认知映射沙箱,将自我中心观察转换为结构化的异中心先验知识,包括异中心空间树(Allocentric-Spatial Trees)和路线图,支持查询物体拓扑、几何关系、可通行性和轨迹。为了在噪声重建和模糊视觉证据下可靠地利用这些先验知识,AlloSpatial引入了空间推理工具集(Spatial Reasoning Harness),用于工具使用判断、模态解耦线索收集和几何-语义仲裁。我们进一步在Qwen3-VL中通过冷启动强化学习内化这一过程,采用工具门控轨迹级奖励。在VSI-Bench和MindCube上的实验表明,AlloSpatial在无训练设置下将专有模型的性能提升5%-18%,而仅使用ASTs(异中心空间树)即使在视觉输入被移除时也能支持强大的空间推理。训练后的AlloSpatial代理进一步超越了更大的通用模型和具有竞争力的空间基线,表明结构化异中心表征、主动工具使用和可验证推理为构建具备空间能力的基础模型提供了一条有前景的途径。
查看原文
查看缓存全文

缓存时间: 2026/06/15 12:58

论文页面 - AlloSpatial: 面向基础模型空间推理的智能体框架

来源:https://huggingface.co/papers/2606.08952 发布时间:6月8日

·

提交者:https://huggingface.co/RSW233

RSW (https://huggingface.co/RSW233)于6月15日

摘要

AlloSpatial框架通过将自我中心观测转换为结构化异中心表征,并借助认知映射和工具使用推理实现可靠的空间认知,从而增强了基础模型的空间推理能力。

多模态基础模型(Multimodal Foundation Models (https://huggingface.co/papers?q=Multimodal%20Foundation%20Models),MFMs)已取得显著进展,但在物理世界的空间推理方面仍然脆弱。一个关键瓶颈在于它们无法将局部的自我中心观测(egocentric observations (https://huggingface.co/papers?q=egocentric%20observations))转化为全局的异中心空间表征(allocentric spatial representation (https://huggingface.co/papers?q=allocentric%20spatial%20representation))。为解决这一问题,我们提出AlloSpatial——一个面向基础模型异中心空间认知的智能体框架。AlloSpatial引入了World2Mind,一个即插即用的认知映射(cognitive mapping (https://huggingface.co/papers?q=cognitive%20mapping))沙盒,可将自我中心观测转化为结构化的异中心先验,包括异中心空间树(Allocentric-Spatial Trees (https://huggingface.co/papers?q=Allocentric-Spatial%20Trees))和路径图,支持查询物体拓扑结构、几何关系、可通行性和轨迹。为在嘈杂重建和模糊视觉证据下可靠地利用这些先验,AlloSpatial引入了一个空间推理框架(Spatial Reasoning Harness (https://huggingface.co/papers?q=Spatial%20Reasoning%20Harness)),用于工具使用判断(tool-use judgment (https://huggingface.co/papers?q=tool-use%20judgment))、模态解耦线索收集(modality-decoupled cue collection (https://huggingface.co/papers?q=modality-decoupled%20cue%20collection))和几何-语义仲裁(geometry-semantic arbitration (https://huggingface.co/papers?q=geometry-semantic%20arbitration))。我们进一步通过冷启动强化学习(cold-start reinforcement learning (https://huggingface.co/papers?q=cold-start%20reinforcement%20learning))和框架门控的轨迹级奖励(trajectory-level reward (https://huggingface.co/papers?q=trajectory-level%20reward)),将这一过程内化到Qwen3-VL中。在VSI-Bench和MindCube上的实验表明,在无训练设置下,AlloSpatial将专有模型的性能提升了5%-18%;即使在移除视觉输入后,ASTs本身也能支持强大的空间推理。训练后的AlloSpatial智能体进一步超越了更大的通用模型和具有竞争力的空间基线,表明结构化异中心表征、主动工具使用和可验证推理为构建具备空间能力的基础模型提供了一条有前景的路径。

查看arXiv页面 (https://arxiv.org/abs/2606.08952)查看PDF (https://arxiv.org/pdf/2606.08952)项目页面 (https://github.com/Heathcliff-saku/AlloSpatial)GitHub9 (https://github.com/Heathcliff-saku/AlloSpatial)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.08952)

在您的智能体中获取此论文:

hf papers read 2606\.08952

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

请在模型README.md中引用arxiv.org/abs/2606.08952以将其链接至此页面。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集README.md中引用arxiv.org/abs/2606.08952以将其链接至此页面。

引用此论文的Space0

没有Space链接到此论文

请在Space README.md中引用arxiv.org/abs/2606.08952以将其链接至此页面。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加至一个收藏 (https://huggingface.co/new-collection) 以将其链接至此页面。

相似文章

物体能提供什么,而非它们是什么:用于可供性推理的功能潜在空间

arXiv cs.LG

本文介绍了A4D,一个将视觉观察映射到围绕可供性(例如“可移动”)构建的共享潜在空间中的框架,用于机器人规划。它在现有可供性上实现了94%的推理准确率,比现有最优方法高出15%,并且实现了100倍的推理速度提升,对未见过的物体功能具有更强的泛化能力。

SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力

Hugging Face Daily Papers

SpatialAct是一个新的基于模拟器的基准,用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距:当前的VLM尽管在孤立推理任务上表现良好,但难以维持空间信念并产生可靠的行为。

从模型扩展到系统扩展:在自主AI中扩展架构框架

Hugging Face Daily Papers

本文认为,推进自主AI需要扩展围绕基础模型的系统架构,重点关注可审计、模块化和可验证的组件。作者介绍了参考架构框架CheetahClaws,并概述了上下文管理、可信内存和动态技能路由方面的瓶颈。