AlloSpatial:面向基础模型空间推理的代理框架
摘要
AlloSpatial是一个代理框架,通过将自我中心观察转换为结构化的全局空间表征,利用认知映射和工具使用推理,增强基础模型的空间推理能力。在基准测试中性能提升5%-18%,并通过冷启动强化学习胜过更大的模型。
查看缓存全文
缓存时间: 2026/06/15 12:58
论文页面 - AlloSpatial: 面向基础模型空间推理的智能体框架
来源:https://huggingface.co/papers/2606.08952 发布时间:6月8日
·
提交者:https://huggingface.co/RSW233
RSW (https://huggingface.co/RSW233)于6月15日
摘要
AlloSpatial框架通过将自我中心观测转换为结构化异中心表征,并借助认知映射和工具使用推理实现可靠的空间认知,从而增强了基础模型的空间推理能力。
多模态基础模型(Multimodal Foundation Models (https://huggingface.co/papers?q=Multimodal%20Foundation%20Models),MFMs)已取得显著进展,但在物理世界的空间推理方面仍然脆弱。一个关键瓶颈在于它们无法将局部的自我中心观测(egocentric observations (https://huggingface.co/papers?q=egocentric%20observations))转化为全局的异中心空间表征(allocentric spatial representation (https://huggingface.co/papers?q=allocentric%20spatial%20representation))。为解决这一问题,我们提出AlloSpatial——一个面向基础模型异中心空间认知的智能体框架。AlloSpatial引入了World2Mind,一个即插即用的认知映射(cognitive mapping (https://huggingface.co/papers?q=cognitive%20mapping))沙盒,可将自我中心观测转化为结构化的异中心先验,包括异中心空间树(Allocentric-Spatial Trees (https://huggingface.co/papers?q=Allocentric-Spatial%20Trees))和路径图,支持查询物体拓扑结构、几何关系、可通行性和轨迹。为在嘈杂重建和模糊视觉证据下可靠地利用这些先验,AlloSpatial引入了一个空间推理框架(Spatial Reasoning Harness (https://huggingface.co/papers?q=Spatial%20Reasoning%20Harness)),用于工具使用判断(tool-use judgment (https://huggingface.co/papers?q=tool-use%20judgment))、模态解耦线索收集(modality-decoupled cue collection (https://huggingface.co/papers?q=modality-decoupled%20cue%20collection))和几何-语义仲裁(geometry-semantic arbitration (https://huggingface.co/papers?q=geometry-semantic%20arbitration))。我们进一步通过冷启动强化学习(cold-start reinforcement learning (https://huggingface.co/papers?q=cold-start%20reinforcement%20learning))和框架门控的轨迹级奖励(trajectory-level reward (https://huggingface.co/papers?q=trajectory-level%20reward)),将这一过程内化到Qwen3-VL中。在VSI-Bench和MindCube上的实验表明,在无训练设置下,AlloSpatial将专有模型的性能提升了5%-18%;即使在移除视觉输入后,ASTs本身也能支持强大的空间推理。训练后的AlloSpatial智能体进一步超越了更大的通用模型和具有竞争力的空间基线,表明结构化异中心表征、主动工具使用和可验证推理为构建具备空间能力的基础模型提供了一条有前景的路径。
查看arXiv页面 (https://arxiv.org/abs/2606.08952)查看PDF (https://arxiv.org/pdf/2606.08952)项目页面 (https://github.com/Heathcliff-saku/AlloSpatial)GitHub9 (https://github.com/Heathcliff-saku/AlloSpatial)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.08952)
在您的智能体中获取此论文:
hf papers read 2606\.08952
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
请在模型README.md中引用arxiv.org/abs/2606.08952以将其链接至此页面。
引用此论文的数据集0
没有数据集链接到此论文
请在数据集README.md中引用arxiv.org/abs/2606.08952以将其链接至此页面。
引用此论文的Space0
没有Space链接到此论文
请在Space README.md中引用arxiv.org/abs/2606.08952以将其链接至此页面。
包含此论文的收藏0
没有收藏包含此论文
请将此论文添加至一个收藏 (https://huggingface.co/new-collection) 以将其链接至此页面。
相似文章
SpatialClaw: 重新思考智能体空间推理的动作接口
SpatialClaw是一个无需训练的框架,它采用代码作为动作接口,使视觉语言模型能够进行灵活、有状态的空间推理,在多种3D/4D空间推理任务上取得了卓越性能。
物体能提供什么,而非它们是什么:用于可供性推理的功能潜在空间
本文介绍了A4D,一个将视觉观察映射到围绕可供性(例如“可移动”)构建的共享潜在空间中的框架,用于机器人规划。它在现有可供性上实现了94%的推理准确率,比现有最优方法高出15%,并且实现了100倍的推理速度提升,对未见过的物体功能具有更强的泛化能力。
用想象力思考:基于世界模拟器的主动式视觉空间推理
本文提出了Astra,一个主动式空间推理框架,将经过强化学习训练的VLM策略与一个世界模拟器结合起来,生成新视角的观察结果,以改进视觉语言模型中的空间推理能力。
SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力
SpatialAct是一个新的基于模拟器的基准,用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距:当前的VLM尽管在孤立推理任务上表现良好,但难以维持空间信念并产生可靠的行为。
从模型扩展到系统扩展:在自主AI中扩展架构框架
本文认为,推进自主AI需要扩展围绕基础模型的系统架构,重点关注可审计、模块化和可验证的组件。作者介绍了参考架构框架CheetahClaws,并概述了上下文管理、可信内存和动态技能路由方面的瓶颈。