ESI-Bench:迈向闭环感知-行动的具身空间智能

Hugging Face Daily Papers 论文

摘要

介绍了 ESI-BENCH,这是一个基于 OmniGibson 构建的全面具身空间智能基准,涵盖 10 个任务类别和 29 个子类别。实验表明,主动探索显著优于被动方法,失败主要源于行动盲视而非感知,揭示了模型与人类相比的元认知差距。

空间智能通过感知-行动循环展开:智能体通过行动获取观测,并推理观测如何随行动变化。它们并非被动处理所见,而是主动揭示未见之物——被遮挡的结构、动态、包容性和功能性,这些无法仅靠被动感知解决。我们超越了先前依赖完美观测的空间智能范式,将观察者重新定义为行动者。我们引入了 ESI-BENCH,这是一个基于 OmniGibson 构建的全面具身空间智能基准,涵盖 10 个任务类别和 29 个子类别,基于 Spelke 的核心知识系统。智能体必须决定部署哪些能力——感知、移动和操作——以及如何排序它们,以主动积累任务相关证据。我们在最先进的 MLLMs 上进行了大量实验,发现主动探索显著优于被动方法,智能体在没有明确指令的情况下自发发现涌现的空间策略,而随机多视角往往增加噪声而非信号,尽管消耗了更多图像。大部分失败并非源于感知薄弱,而是来自行动盲视:糟糕的行动选择导致糟糕的观测,进而引发级联错误。虽然显式 3D 定位稳定了深度敏感任务的推理,但不完美的 3D 表示比 2D 基线更具危害性,因为它扭曲了空间关系。人类研究进一步揭示,与寻求证伪视角并在矛盾中修正信念的人类不同,模型无论证据质量如何都会过早且高置信度地做出判断,暴露了一个仅靠更好的感知或更丰富的具身交互都无法弥补的元认知差距。
查看原文
查看缓存全文

缓存时间: 2026/05/20 06:36

论文页面 - ESI-Bench:迈向闭合感知-行动循环的具身空间智能

来源:https://huggingface.co/papers/2605.18746

摘要

具身空间智能需要主动的感知-行动循环,智能体在其中策略性地探索环境以揭示隐藏的空间结构,其性能受限于行动选择而非感知能力。

空间智能(https://huggingface.co/papers?q=Spatial%20intelligence)通过感知-行动循环(https://huggingface.co/papers?q=perception-action%20loop)展开:智能体采取行动获取观测,并推理观测如何随行动而变化。它们并非被动地处理所见之物,而是主动揭示未见之物——被遮挡的结构、动态、包含关系以及功能,这些无法单靠被动感知解决。我们超越先前将观察者视为拥有神谕式观测的“空间智能”(https://huggingface.co/papers?q=spatial%20intelligence)表述,将观察者重新定义为行动者。我们引入 ESI-BENCH,一个基于 OmniGibson 的全面具身空间智能(https://huggingface.co/papers?q=embodied%20spatial%20intelligence)基准,涵盖 10 个任务类别和 29 个子类别,以 Spelke 的核心知识系统(https://huggingface.co/papers?q=core%20knowledge%20systems)为基础。智能体必须决定部署哪些能力——感知、移动和操作——以及如何排序这些能力以主动积累任务相关证据。我们对当前最先进的 MLLM 进行了广泛实验,发现主动探索(https://huggingface.co/papers?q=active%20exploration)显著优于被动探索,智能体自发发现涌现的空间策略而无需显式指令,而随机多视角不仅消耗更多图像,反而经常增加噪声而非信号。大多数失败并非源于感知薄弱,而是由于行动盲(https://huggingface.co/papers?q=action%20blindness):糟糕的行动选择导致糟糕的观测,进而引发级联错误。尽管明确的 3D grounding(三维基础)能稳定深度敏感任务中的推理,但三维表示的不完美比二维基线更具危害性,因为它扭曲了空间关系。人类研究进一步揭示,与人类寻求证伪视角并在矛盾下修正信念不同,模型无论证据质量如何都会过早地以高置信度做出判断,暴露出一个既不能通过更好感知、也不能通过更多具身交互单独弥补的元认知差距。

查看 arXiv 页面(https://arxiv.org/abs/2605.18746)查看 PDF(https://arxiv.org/pdf/2605.18746)项目页面(https://esi-bench.github.io/)GitHub11(https://github.com/ESI-Bench/ESI-Bench)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2605.18746)

在你的智能体中获取此论文:

hf papers read 2605\.18746

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.18746 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.18746 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.18746 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

从生成视角探索空间智能

Hugging Face Daily Papers

研究者推出首个量化多模态模型生成式空间智能的基准 GSI-Bench,通过在图像生成过程中评估 3D 空间约束遵守情况来衡量能力。在合成数据集上微调可显著提升空间编辑保真度与下游空间理解,证明生成式训练能增强空间推理。

SVI-Bench:战略视频智能的动态微世界

Hugging Face Daily Papers

介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。

社交智能基准

Reddit r/singularity

本文提出了一个新的基准,旨在评估AI系统的社交智能,衡量其理解和响应社交线索与互动的能力。

SkillEvolBench:从情景经验到程序技能的进化基准测试

Hugging Face Daily Papers

SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。