SpatialWorld: 多模态智能体在真实世界任务中的交互式空间推理基准测试

Hugging Face Daily Papers 2026/06/08 00:00 论文

摘要

SpatialWorld是一个统一的基准测试，用于评估多模态智能体在各种真实世界任务中的交互式空间推理能力。结果表明，即使是最强大的模型，其任务成功率也很低。

空间推理是多模态大语言模型（MLLMs）在物理世界中感知和操作的基础能力。然而，现有基准测试主要依赖被动评估（例如静态VQA）或特定模拟器的流程，未能评估通用的交互式空间理解。我们提出了SpatialWorld，这是一个统一的基准测试，专门用于评估多模态智能体在复杂真实世界任务中的交互式空间理解。通过在一个共享的、与模拟器无关的协议下集成八个异构仿真后端，SpatialWorld包含了760个人工标注的任务，涵盖多个领域（例如家庭日常、旅行、社交协作）。智能体必须在仅视觉部分可观测的条件下完成任务，主动收集第一人称视觉证据，并通过统一的、基于文本的动作接口（原生支持MLLMs）表达决策。为了可靠评估，每个任务都包含一个人工验证的初始状态、一条参考轨迹和一个终态验证器。对15个先进智能体的评估表明，稳健的空间任务解决仍然具有挑战性：最强的模型GPT-5的平均任务成功率（TSR）仅为17.4%，而领先的开源模型Qwen-3.5达到了14.1%。进一步分析揭示了任务成功率与执行效率之间的明显不匹配，以及显著的领域特定性能差异。这些在主动探索和长期规划方面的瓶颈使SpatialWorld成为未来空间智能体的严格测试平台。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:44

论文页面 - SpatialWorld：现实世界任务中多模态智能体交互式空间推理的基准测试

来源：https://huggingface.co/papers/2606.09669 作者：

，

摘要

SpatialWorld 提出了一个统一的基准测试，用于通过多样化的现实世界任务（具有部分可观测性和基于文本的动作）评估多模态智能体的交互式空间理解能力。

空间推理（https://huggingface.co/papers?q=Spatial%20reasoning）是多模态大语言模型（https://huggingface.co/papers?q=multimodal%20large%20language%20models）（MLLMs）在物理世界中感知和运作的基础能力。然而，现有的基准测试主要依赖被动评估（如静态 VQA）或特定模拟器的流程，未能全面评估通用的交互式空间理解能力。我们引入了 SpatialWorld，这是一个统一的基准测试，专门用于评估多模态智能体在复杂现实世界任务中的交互式空间理解能力。SpatialWorld 将八个异构模拟后端（https://huggingface.co/papers?q=simulation%20backends）集成在一个共享的、与模拟器无关的协议下，涵盖了来自不同领域（如家庭日常、旅行、社交协作）的 760 个人工标注任务。智能体必须在仅依靠视觉的部分可观测性（https://huggingface.co/papers?q=partial%20observability）下解决任务，主动收集以自我为中心的视觉证据，并通过 MLLMs 原生的统一文本动作接口（https://huggingface.co/papers?q=text-based%20action%20interface）表达决策。为了可靠评估，每个任务都包含一个经过人工验证的初始状态、一条参考轨迹和一个终端状态验证器。对 15 个先进智能体的评估表明，稳健的空间任务解决仍然具有挑战性：最强的模型 GPT-5 平均任务成功率（https://huggingface.co/papers?q=task%20success%20rate）（TSR）仅为 17.4%，而领先的开源模型 Qwen-3.5 达到了 14.1%。进一步分析揭示了任务成功与执行效率之间的明显不匹配，以及显著的领域特定性能差异。这些在主动探索（https://huggingface.co/papers?q=active%20exploration）和长程规划（https://huggingface.co/papers?q=long-horizon%20planning）方面的瓶颈，使 SpatialWorld 成为未来空间智能体的严格测试平台。

查看 arXiv 页面（https://arxiv.org/abs/2606.09669）查看 PDF（https://arxiv.org/pdf/2606.09669）项目页面（https://spatial-world.github.io/）GitHub4（https://github.com/Hongcheng-Gao/SpatialWorld）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.09669）

在您的智能体中获取这篇论文：

hf papers read 2606\.09669

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.09669 以将其链接到此页面。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.09669 以将其链接到此页面。

引用此论文的 Space 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.09669 以将其链接到此页面。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以将其链接到此页面。

SpatialWorld: 多模态智能体在真实世界任务中的交互式空间推理基准测试

论文页面 - SpatialWorld：现实世界任务中多模态智能体交互式空间推理的基准测试

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

WorldBench：一个具有挑战性且视觉多样化的多模态推理基准

SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力

WorldMemArena：通过动作-世界交互评估多模态智能体记忆

OVO-S-Bench：面向多模态大语言模型流式空间智能的层次化基准测试

用想象力思考：基于世界模拟器的主动式视觉空间推理

提交意见反馈