ESI-Bench：迈向闭环感知-行动的具身空间智能

Hugging Face Daily Papers 2026/05/18 00:00 论文

embodied-ai spatial-intelligence benchmark perception-action-loop active-exploration mllms robotics

摘要

介绍了 ESI-BENCH，这是一个基于 OmniGibson 构建的全面具身空间智能基准，涵盖 10 个任务类别和 29 个子类别。实验表明，主动探索显著优于被动方法，失败主要源于行动盲视而非感知，揭示了模型与人类相比的元认知差距。

空间智能通过感知-行动循环展开：智能体通过行动获取观测，并推理观测如何随行动变化。它们并非被动处理所见，而是主动揭示未见之物——被遮挡的结构、动态、包容性和功能性，这些无法仅靠被动感知解决。我们超越了先前依赖完美观测的空间智能范式，将观察者重新定义为行动者。我们引入了 ESI-BENCH，这是一个基于 OmniGibson 构建的全面具身空间智能基准，涵盖 10 个任务类别和 29 个子类别，基于 Spelke 的核心知识系统。智能体必须决定部署哪些能力——感知、移动和操作——以及如何排序它们，以主动积累任务相关证据。我们在最先进的 MLLMs 上进行了大量实验，发现主动探索显著优于被动方法，智能体在没有明确指令的情况下自发发现涌现的空间策略，而随机多视角往往增加噪声而非信号，尽管消耗了更多图像。大部分失败并非源于感知薄弱，而是来自行动盲视：糟糕的行动选择导致糟糕的观测，进而引发级联错误。虽然显式 3D 定位稳定了深度敏感任务的推理，但不完美的 3D 表示比 2D 基线更具危害性，因为它扭曲了空间关系。人类研究进一步揭示，与寻求证伪视角并在矛盾中修正信念的人类不同，模型无论证据质量如何都会过早且高置信度地做出判断，暴露了一个仅靠更好的感知或更丰富的具身交互都无法弥补的元认知差距。

查看原文

查看缓存全文

缓存时间: 2026/05/20 06:36

论文页面 - ESI-Bench：迈向闭合感知-行动循环的具身空间智能

来源：https://huggingface.co/papers/2605.18746

摘要

具身空间智能需要主动的感知-行动循环，智能体在其中策略性地探索环境以揭示隐藏的空间结构，其性能受限于行动选择而非感知能力。

空间智能（https://huggingface.co/papers?q=Spatial%20intelligence）通过感知-行动循环（https://huggingface.co/papers?q=perception-action%20loop）展开：智能体采取行动获取观测，并推理观测如何随行动而变化。它们并非被动地处理所见之物，而是主动揭示未见之物——被遮挡的结构、动态、包含关系以及功能，这些无法单靠被动感知解决。我们超越先前将观察者视为拥有神谕式观测的“空间智能”（https://huggingface.co/papers?q=spatial%20intelligence）表述，将观察者重新定义为行动者。我们引入 ESI-BENCH，一个基于 OmniGibson 的全面具身空间智能（https://huggingface.co/papers?q=embodied%20spatial%20intelligence）基准，涵盖 10 个任务类别和 29 个子类别，以 Spelke 的核心知识系统（https://huggingface.co/papers?q=core%20knowledge%20systems）为基础。智能体必须决定部署哪些能力——感知、移动和操作——以及如何排序这些能力以主动积累任务相关证据。我们对当前最先进的 MLLM 进行了广泛实验，发现主动探索（https://huggingface.co/papers?q=active%20exploration）显著优于被动探索，智能体自发发现涌现的空间策略而无需显式指令，而随机多视角不仅消耗更多图像，反而经常增加噪声而非信号。大多数失败并非源于感知薄弱，而是由于行动盲（https://huggingface.co/papers?q=action%20blindness）：糟糕的行动选择导致糟糕的观测，进而引发级联错误。尽管明确的 3D grounding（三维基础）能稳定深度敏感任务中的推理，但三维表示的不完美比二维基线更具危害性，因为它扭曲了空间关系。人类研究进一步揭示，与人类寻求证伪视角并在矛盾下修正信念不同，模型无论证据质量如何都会过早地以高置信度做出判断，暴露出一个既不能通过更好感知、也不能通过更多具身交互单独弥补的元认知差距。

查看 arXiv 页面（https://arxiv.org/abs/2605.18746）查看 PDF（https://arxiv.org/pdf/2605.18746）项目页面（https://esi-bench.github.io/）GitHub11（https://github.com/ESI-Bench/ESI-Bench）添加到收藏集（https://huggingface.co/login?next=%2Fpapers%2F2605.18746）

在你的智能体中获取此论文：

hf papers read 2605\.18746

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.18746 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.18746 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.18746 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

ESI-Bench：迈向闭环感知-行动的具身空间智能

论文页面 - ESI-Bench：迈向闭合感知-行动循环的具身空间智能

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

空间中的自我：无人机具身智能中自我意识与空间认知的基准测试

Embodied-BenchClaw：一种用于具身空间智能基准构建的自主多智能体系统

从生成视角探索空间智能

SVI-Bench：战略视频智能的动态微世界

具身算子与基准测试：迈向可复用和可部署的具身智能系统

提交意见反馈