SpatialBench: 你的空间基础模型是全能选手吗?
摘要
SpatialBench是一个综合基准,用于评估跨不同领域和任务的空间基础模型,揭示了当前模型的局限性,并引入了DA-Next-5M和DA-Next以推动空间表示学习。
查看缓存全文
缓存时间: 2026/05/27 02:47
Paper page - SpatialBench:您的空间基础模型是全能选手吗?
来源:https://huggingface.co/papers/2605.27367 发布于5月26日
·
由https://huggingface.co/lifuguan提交
leoli (https://huggingface.co/lifuguan) 于5月27日
作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
SpatialBench 提出了一个全面的基准测试,用于评估跨不同领域和任务的空间基础模型,揭示了当前模型的局限性,并引入了 DA-Next-5M 和 DA-Next 以推动空间表征学习的发展。
尽管空间基础模型 (https://huggingface.co/papers?q=spatial%20foundation%20models) 在标准数据集上展示了令人印象深刻的性能,但一个关键问题依然存在:它们是否真的是能够跨多样下游任务、任意视角、变化场景领域、不同输入密度以及特定硬件限制下稳健泛化的全能选手?回答这一总体性问题需要全面的评估,然而当前模型主要在其专门设计或训练的特定领域上被评估。这种评估本质上受到范式覆盖范围窄、场景领域有限以及任意帧采样的限制,使得从根本上评估其真实泛化能力十分困难。为填补这一空白,我们提出了 SpatialBench,这是一个面向空间基础模型的跨范式 (https://huggingface.co/papers?q=cross-paradigm)、领域多样化 (https://huggingface.co/papers?q=domain-diverse%20benchmark) 的基准测试,并采用确定性采样 (https://huggingface.co/papers?q=deterministic%20sampling) 方法。SpatialBench 具有前所未有的规模和严格的确定性设计,包含 19 个数据集和 546 个场景,覆盖 5 个不同的空间领域 (https://huggingface.co/papers?q=spatial%20domains)。它全面评估了 6 种范式下的 41 个模型,在 4 种不同输入密度设置 (https://huggingface.co/papers?q=input%20density%20settings) 下针对 5 个任务套件 (https://huggingface.co/papers?q=task%20suites) 进行测试。我们广泛的评估揭示,当前模型尚不是全能选手,并为未来的发展发现了关键洞见。具体来说,我们证明了全上下文注意力 (https://huggingface.co/papers?q=full-context%20attention) 能最大化准确度,而有限内存策略 (https://huggingface.co/papers?q=bounded-memory%20strategies) 则解锁了长序列可扩展性 (https://huggingface.co/papers?q=long-sequence%20scalability)。此外,我们在具有挑战性的具身和以自我为中心任务 (https://huggingface.co/papers?q=egocentric%20tasks) 上的实证评估表明,严格的领域对齐和高数据质量对于性能远比简单扩大数据集更为关键。最后,为解决我们分析中发现的最大数据缺口,我们不仅限于评估,还引入了一个大规模数据集 DA-Next-5M 和一个强大的基线模型 DA-Next,从而推动空间表征学习 (https://huggingface.co/papers?q=spatial%20representation%20learning) 的边界。
查看 arXiv 页面 (https://arxiv.org/abs/2605.27367)查看 PDF (https://arxiv.org/pdf/2605.27367)项目页面 (https://ropedia.github.io/SpatialBench/)GitHub5 (https://github.com/Ropedia/SpatialBench)添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.27367)
在你的 agent 中获取此论文:
hf papers read 2605\.27367
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.27367 即可从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.27367 即可从此页面链接。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.27367 即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
从生成视角探索空间智能
研究者推出首个量化多模态模型生成式空间智能的基准 GSI-Bench,通过在图像生成过程中评估 3D 空间约束遵守情况来衡量能力。在合成数据集上微调可显著提升空间编辑保真度与下游空间理解,证明生成式训练能增强空间推理。
WildTableBench:在真实场景中评估多模态基础模型的表格理解能力
WildTableBench 提出了首个针对真实世界表格图像的问答应答基准,揭示了现有多模态基础模型在结构感知和数值推理方面存在显著困难,仅有1个模型准确率超过50%。
ESI-Bench:迈向闭环感知-行动的具身空间智能
介绍了 ESI-BENCH,这是一个基于 OmniGibson 构建的全面具身空间智能基准,涵盖 10 个任务类别和 29 个子类别。实验表明,主动探索显著优于被动方法,失败主要源于行动盲视而非感知,揭示了模型与人类相比的元认知差距。
SVI-Bench:战略视频智能的动态微世界
介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。
Flat-Pack Bench:通过家具组装评估大型视觉-语言模型的时空理解能力
介绍了Flat-Pack Bench,一个通过家具组装任务评估大型视觉-语言模型细粒度时空推理能力的基准测试。实验表明,当前的LVLMs在跟踪和空间交互方面存在困难。