SpatialWorld: 多模态智能体在真实世界任务中的交互式空间推理基准测试
摘要
SpatialWorld是一个统一的基准测试,用于评估多模态智能体在各种真实世界任务中的交互式空间推理能力。结果表明,即使是最强大的模型,其任务成功率也很低。
查看缓存全文
缓存时间: 2026/06/09 08:44
论文页面 - SpatialWorld:现实世界任务中多模态智能体交互式空间推理的基准测试
来源:https://huggingface.co/papers/2606.09669 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
SpatialWorld 提出了一个统一的基准测试,用于通过多样化的现实世界任务(具有部分可观测性和基于文本的动作)评估多模态智能体的交互式空间理解能力。
空间推理(https://huggingface.co/papers?q=Spatial%20reasoning)是多模态大语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models)(MLLMs)在物理世界中感知和运作的基础能力。然而,现有的基准测试主要依赖被动评估(如静态 VQA)或特定模拟器的流程,未能全面评估通用的交互式空间理解能力。我们引入了 SpatialWorld,这是一个统一的基准测试,专门用于评估多模态智能体在复杂现实世界任务中的交互式空间理解能力。SpatialWorld 将八个异构模拟后端(https://huggingface.co/papers?q=simulation%20backends)集成在一个共享的、与模拟器无关的协议下,涵盖了来自不同领域(如家庭日常、旅行、社交协作)的 760 个人工标注任务。智能体必须在仅依靠视觉的部分可观测性(https://huggingface.co/papers?q=partial%20observability)下解决任务,主动收集以自我为中心的视觉证据,并通过 MLLMs 原生的统一文本动作接口(https://huggingface.co/papers?q=text-based%20action%20interface)表达决策。为了可靠评估,每个任务都包含一个经过人工验证的初始状态、一条参考轨迹和一个终端状态验证器。对 15 个先进智能体的评估表明,稳健的空间任务解决仍然具有挑战性:最强的模型 GPT-5 平均任务成功率(https://huggingface.co/papers?q=task%20success%20rate)(TSR)仅为 17.4%,而领先的开源模型 Qwen-3.5 达到了 14.1%。进一步分析揭示了任务成功与执行效率之间的明显不匹配,以及显著的领域特定性能差异。这些在主动探索(https://huggingface.co/papers?q=active%20exploration)和长程规划(https://huggingface.co/papers?q=long-horizon%20planning)方面的瓶颈,使 SpatialWorld 成为未来空间智能体的严格测试平台。
查看 arXiv 页面(https://arxiv.org/abs/2606.09669)查看 PDF(https://arxiv.org/pdf/2606.09669)项目页面(https://spatial-world.github.io/)GitHub4(https://github.com/Hongcheng-Gao/SpatialWorld)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09669)
在您的智能体中获取这篇论文:
hf papers read 2606\.09669
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.09669 以将其链接到此页面。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.09669 以将其链接到此页面。
引用此论文的 Space 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.09669 以将其链接到此页面。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以将其链接到此页面。
相似文章
WorldBench:一个具有挑战性且视觉多样化的多模态推理基准
介绍WorldBench,一个视觉多样化的多模态推理基准,揭示了当前多模态大语言模型在视觉理解方面的显著局限性。
SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力
SpatialAct是一个新的基于模拟器的基准,用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距:当前的VLM尽管在孤立推理任务上表现良好,但难以维持空间信念并产生可靠的行为。
WorldMemArena:通过动作-世界交互评估多模态智能体记忆
WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。
OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试
OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。
用想象力思考:基于世界模拟器的主动式视觉空间推理
本文提出了Astra,一个主动式空间推理框架,将经过强化学习训练的VLM策略与一个世界模拟器结合起来,生成新视角的观察结果,以改进视觉语言模型中的空间推理能力。