SpatialBench: 你的空间基础模型是全能选手吗?

Hugging Face Daily Papers 论文

摘要

SpatialBench是一个综合基准,用于评估跨不同领域和任务的空间基础模型,揭示了当前模型的局限性,并引入了DA-Next-5M和DA-Next以推动空间表示学习。

尽管空间基础模型在标准数据集上表现出色,但一个关键问题依然存在:它们是否真正成为全能选手,能够在多样下游任务、任意视角、变化场景域、不同输入密度以及特定硬件约束下稳健泛化?回答这一总体问题需要全面评估,然而当前模型主要在其专门设计或训练的特定领域进行评估。这类评估本质上受限于狭小的范式覆盖、有限的场景域以及任意的帧采样,使得根本难以评估其真实泛化能力。为弥补这一空白,我们提出了SpatialBench——一个跨范式、领域多样且具备确定性采样的空间基础模型基准。SpatialBench具有前所未有的规模与严谨的确定性设计,包含19个数据集和546个场景,覆盖5个不同的空间领域。它在4种输入密度设置下,对5个任务套件中的6个范式的41个模型进行了全面评估。我们的大量评估揭示,当前模型尚未成为全能选手,并为未来进步提供了关键见解。具体而言,我们证明全上下文注意力最大化准确率,而有界记忆策略解锁长序列可扩展性。此外,在具有挑战性的具身和自我中心任务中,我们的实证评估表明,严格领域对齐和高数据质量对性能的重要性远超单纯数据规模扩展。更进一步,为应对分析中发现的最大数据缺口,我们超越评估,引入了大规模数据集DA-Next-5M和强基线模型DA-Next,推动空间表示学习的边界。
查看原文
查看缓存全文

缓存时间: 2026/05/27 02:47

Paper page - SpatialBench:您的空间基础模型是全能选手吗?

来源:https://huggingface.co/papers/2605.27367 发布于5月26日

·

由https://huggingface.co/lifuguan提交

leoli (https://huggingface.co/lifuguan) 于5月27日

作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

SpatialBench 提出了一个全面的基准测试,用于评估跨不同领域和任务的空间基础模型,揭示了当前模型的局限性,并引入了 DA-Next-5M 和 DA-Next 以推动空间表征学习的发展。

尽管空间基础模型 (https://huggingface.co/papers?q=spatial%20foundation%20models) 在标准数据集上展示了令人印象深刻的性能,但一个关键问题依然存在:它们是否真的是能够跨多样下游任务、任意视角、变化场景领域、不同输入密度以及特定硬件限制下稳健泛化的全能选手?回答这一总体性问题需要全面的评估,然而当前模型主要在其专门设计或训练的特定领域上被评估。这种评估本质上受到范式覆盖范围窄、场景领域有限以及任意帧采样的限制,使得从根本上评估其真实泛化能力十分困难。为填补这一空白,我们提出了 SpatialBench,这是一个面向空间基础模型的跨范式 (https://huggingface.co/papers?q=cross-paradigm)、领域多样化 (https://huggingface.co/papers?q=domain-diverse%20benchmark) 的基准测试,并采用确定性采样 (https://huggingface.co/papers?q=deterministic%20sampling) 方法。SpatialBench 具有前所未有的规模和严格的确定性设计,包含 19 个数据集和 546 个场景,覆盖 5 个不同的空间领域 (https://huggingface.co/papers?q=spatial%20domains)。它全面评估了 6 种范式下的 41 个模型,在 4 种不同输入密度设置 (https://huggingface.co/papers?q=input%20density%20settings) 下针对 5 个任务套件 (https://huggingface.co/papers?q=task%20suites) 进行测试。我们广泛的评估揭示,当前模型尚不是全能选手,并为未来的发展发现了关键洞见。具体来说,我们证明了全上下文注意力 (https://huggingface.co/papers?q=full-context%20attention) 能最大化准确度,而有限内存策略 (https://huggingface.co/papers?q=bounded-memory%20strategies) 则解锁了长序列可扩展性 (https://huggingface.co/papers?q=long-sequence%20scalability)。此外,我们在具有挑战性的具身和以自我为中心任务 (https://huggingface.co/papers?q=egocentric%20tasks) 上的实证评估表明,严格的领域对齐和高数据质量对于性能远比简单扩大数据集更为关键。最后,为解决我们分析中发现的最大数据缺口,我们不仅限于评估,还引入了一个大规模数据集 DA-Next-5M 和一个强大的基线模型 DA-Next,从而推动空间表征学习 (https://huggingface.co/papers?q=spatial%20representation%20learning) 的边界。

查看 arXiv 页面 (https://arxiv.org/abs/2605.27367)查看 PDF (https://arxiv.org/pdf/2605.27367)项目页面 (https://ropedia.github.io/SpatialBench/)GitHub5 (https://github.com/Ropedia/SpatialBench)添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.27367)

在你的 agent 中获取此论文:

hf papers read 2605\.27367

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.27367 即可从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.27367 即可从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.27367 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

从生成视角探索空间智能

Hugging Face Daily Papers

研究者推出首个量化多模态模型生成式空间智能的基准 GSI-Bench,通过在图像生成过程中评估 3D 空间约束遵守情况来衡量能力。在合成数据集上微调可显著提升空间编辑保真度与下游空间理解,证明生成式训练能增强空间推理。

ESI-Bench:迈向闭环感知-行动的具身空间智能

Hugging Face Daily Papers

介绍了 ESI-BENCH,这是一个基于 OmniGibson 构建的全面具身空间智能基准,涵盖 10 个任务类别和 29 个子类别。实验表明,主动探索显著优于被动方法,失败主要源于行动盲视而非感知,揭示了模型与人类相比的元认知差距。

SVI-Bench:战略视频智能的动态微世界

Hugging Face Daily Papers

介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。