SPACENUM: 重新审视VLMs中的空间数值理解
摘要
本文提出SpaceNum,一个统一的框架,用于评估视觉语言模型(VLMs)在空间上下文中理解数值的能力,发现当前模型在很大程度上未能将数字与空间对应起来,且常常表现出接近随机猜测的性能。
arXiv:2605.23898v1 Announce Type: new
摘要:视觉语言模型(VLM)越来越多地部署在具身环境中,需要生成数值输出,如动作幅度和空间坐标。尽管这些数字看似有意义,但这些数值输出是否真正基于空间感知仍然不清楚。因此,在本工作中,我们通过SpaceNum重新审视空间数值理解,SpaceNum是一个统一框架,包含两个互补的设置:空间探索中的动态数值转换和空间推理中的静态布局数值。我们制定了两个双向任务,Num2Space和Space2Num,以评估VLM在视觉侧空间结构与语言侧数值表示之间的映射能力。我们系统研究了当前VLM是否真正理解空间场景中的数值。在动态转换和静态布局中,我们发现模型在很大程度上未能将数值与空间意义对应起来,且通常接近随机猜测。通过错误分析、推理轨迹分析和受控干预,我们表明当前VLM严重依赖浅层空间线索,难以建立稳定的坐标感知表示,并且无法从视觉观察中抽象出结构化的空间布局。我们进一步表明,显式推理仅带来边际改善,而微调可以部分改善空间数值理解,并迁移到外部空间推理基准。
查看缓存全文
缓存时间: 2026/05/25 08:59
# SpaceNum: 重新审视视觉语言模型中的空间数值理解
来源: https://arxiv.org/html/2605.23898
Jianshu Zhang Northwestern Yijiang Li11footnotemark:1 UCSD Huifeixin Chen USC Haoran Lu Northwestern Letian Xue Northwestern Bingyang Wang GaTech Han Liu Northwestern
###### 摘要
视觉语言模型 (VLM) 日益部署在具身环境中,需要输出数值,如动作幅度和空间坐标。尽管这些数字看似有意义,但目前尚不清楚这些数值输出是否真正基于空间感知。因此,在这项工作中,我们通过 SpaceNum 重新审视空间数值理解,这是一个统一的框架,涵盖了两种互补的设置:空间探索中作为动态转换的数字,以及空间推理中作为静态布局的数字。我们构建了两个双向任务,Num2Space 和 Space2Num,以评估 VLM 在视觉侧空间结构和语言侧数值表示之间的映射能力。我们系统地研究了当前 VLM 是否真正理解空间环境中的数值。在动态转换和静态布局下,我们发现模型在很大程度上未能将数字锚定到空间意义上,且表现常接近随机猜测。通过错误分析、推理轨迹分析和受控干预,我们表明当前 VLM 严重依赖浅层空间线索,难以构建稳定的坐标感知表示,并且无法从视觉观察中抽象出结构化的空间布局。我们进一步表明,显式推理仅带来微小的改进,而微调可以在一定程度上改善空间数值理解并迁移到外部空间推理基准。
## 1 引言
视觉语言模型(VLM)最近已从描述图像中直接可见的内容 [6 (https://arxiv.org/html/2605.23898#bib.bib29),16 (https://arxiv.org/html/2605.23898#bib.bib15),22 (https://arxiv.org/html/2605.23898#bib.bib28)] 发展到主动探索和理解复杂空间环境 [24 (https://arxiv.org/html/2605.23898#bib.bib10),11 (https://arxiv.org/html/2605.23898#bib.bib11),30 (https://arxiv.org/html/2605.23898#bib.bib12),9 (https://arxiv.org/html/2605.23898#bib.bib18),19 (https://arxiv.org/html/2605.23898#bib.bib27)]。由此出现了两种代表性的空间任务场景:(1) 空间探索,其中基于 VLM 的智能体通过生成基于其观察的动作来主动收集信息,从而导航环境;(2) 空间理解,其中 VLM 推断场景的全局结构并通过构建环境的内部表示来回答空间相关的问题。如图1 (https://arxiv.org/html/2605.23898#S1.F1) 所示,尽管目标不同,但两种范式都有一个共同的要求:VLM 必须产生明确的数值,其含义基于空间上下文。
在空间探索中 [31 (https://arxiv.org/html/2605.23898#bib.bib32),27 (https://arxiv.org/html/2605.23898#bib.bib33)],基于 VLM 的智能体可能输出诸如“rotate_left(20°)”之类的动作。数值 20 并不描述当前观察,也不直接指定下一个观察。相反,它指定了状态变化的幅度,作为连续观察之间的转换量,其中数字自然扮演着**动态转换幅度**的角色。
相比之下,在空间理解中,先前的工作表明构建显式空间表示 [32 (https://arxiv.org/html/2605.23898#bib.bib31),30 (https://arxiv.org/html/2605.23898#bib.bib12),10 (https://arxiv.org/html/2605.23898#bib.bib30)](通常以认知地图的形式)可以提升空间推理任务的性能。在这里,数字编码了相对空间关系,并对应**静态相对空间布局**。单个物体的坐标孤立地承载有限的语义信息;只有当多个物体在共享的坐标系中被考虑时,空间信息才变得可解释,此时数值定义了它们的相对位置和整体布局。
这自然引出一个关键问题:**VLM 是否真正理解数字作为空间中的度量量,并基于空间的度量属性生成它们?** 在空间探索和空间理解中,Num2Space 评估语言侧的数值是否能正确锚定到对应的空间结果,而 Space2Num 则测试能否从给定的空间配置中推断出合适的数值。这两个任务共同从两个方向评估数值理解,使我们能够系统地检查 VLM 是仅仅生成看似合理的数字,还是真正将数字锚定到空间意义上。
为了系统地研究空间数值理解,我们探究了一系列逐步深入的问题。我们首先在动态转换和静态布局上评估了 18 个 VLM,表明当前模型在很大程度上未能将数值锚定到空间意义上,且表现常接近随机猜测。然后,我们分析了这些失败在不同场景和映射方向上的差异,揭示了视觉到数字和数字到视觉锚定之间的强烈不对称性。为进一步理解这些失败的来源,我们进行了结构化错误分析、推理轨迹分析和受控干预。我们的结果表明,当前 VLM 常依赖浅层空间线索,无法构建稳定的坐标感知表示,并且难以从视觉观察中抽象出结构化的空间布局。令人惊讶的是,启用显式推理仅带来微小的改进,表明主要限制并非缺少推理轨迹,而是缺乏空间校准的推理操作。最后,我们表明空间数值理解可以通过微调得到部分改善,并迁移到外部空间推理基准。
参考说明图1:SpaceNum 概览。我们在两种设置下研究空间数值理解:空间探索中作为动态转换的数字(左)和空间理解中作为静态布局的数字(右)。我们进一步通过两个任务研究视觉侧空间和语言侧数字之间的映射:Num2Space,将数字映射到视觉结果(上),以及 Space2Num,将视觉输入映射到数字(下)。
## 2 SpaceNum 数据整理
#### 数据源与平台。
我们搭建了基于模拟器的流水线以实现可控数据生成。对于动态转换,数据在 AI2-THOR [13 (https://arxiv.org/html/2605.23898#bib.bib1)] 中生成,该平台支持具身智能体在各种室内环境中执行参数化动作。对于静态布局数据,场景使用来自 BlenderKit [2 (https://arxiv.org/html/2605.23898#bib.bib3)] 的资源在 NVIDIA Isaac Sim [20 (https://arxiv.org/html/2605.23898#bib.bib2)] 中构建,支持可控布局生成,并可访问用于认知地图构建的真实空间标注。
### 2.1 数字作为动态转换
#### 数据收集。
我们构建的数据集仔细控制了动作覆盖、转换连续性、视觉锚定和数据有效性。(i) **动作覆盖**:我们定义了一组引发空间转换的基本动作,包括平移(前进 F / 后退 B;左 L / 右 R)和旋转(上转 U / 下转 D;左转 L / 右转 R)。(ii) **转换连续性**:选择动作幅度以确保连续观察之间有足够的重叠,如表1 (https://arxiv.org/html/2605.23898#S2.T1) 总结,在保持**视觉连续性**的同时引入有意义的空间变化,避免突然或模糊的转换。
表 1: 动作参数范围。(iii) **视觉锚定**:为确保转换在视觉上可识别,我们过滤掉锚点不足的观察,丢弃包含少于 3 个物体实例的帧。(iv) **数据有效性**:为避免由随机初始化或动作执行(例如,相同帧或空观察)引起的无效转换,我们利用**占据地图**来约束初始智能体状态和动作后状态都有效,确保所有收集的样本对应有信息量的转换。
#### 任务定义。
令 o_t 表示初始观察,o_{t+1} 表示结果观察,a 表示动作类型,n 表示表示转换幅度的数值参数。
**Num2Space**。模型给定 (o_t, a, n),需要从候选集中选择正确的结果观察 o_{t+1}。干扰候选是通过固定相同初始观察 o_t 和动作类型 a,同时变化数值 n 来构建的,从而得到对应不同转换幅度的替代观察 ~o_{t+1}。
**Space2Num**。模型给定 (o_t, o_{t+1}, a),需要推断出解释该转换的数值 n。此任务需要将 o_t 和 o_{t+1} 之间的视觉差异锚定到对应的转换幅度。
### 2.2 数字作为静态布局
#### 数据收集。
我们通过可控生成构建布局数据集,涵盖参考系统、布局构建、场景尺度和表示。(i) **坐标系构建**。每个场景使用由两个锚点物体定义的清晰坐标系。一个锚点设置原点。两个锚点的相对位置定义一致的方向。这固定了坐标框架(直到尺度)并消除了歧义。锚点在同一个场景中的样本之间保持固定。(ii) **布局生成**。给定坐标系,我们放置第三个物体,具有不同的位置和大小。我们施加简单约束:物体不重叠,距离在合理范围内。在同一参考框架下,我们创建三种类型的变化:(a) 仅位置,(b) 仅大小,(c) 位置和大小同时变化。这使我们可以以受控方式研究每个因素。(iii) **场景尺度**。我们包括桌面规模和房间规模的场景。这改变了空间范围和物体分布,增加了多样性。(iv) **表示变化**。对于每个布局,我们构建多个基于坐标的表示,具有不同维度(1D、2D 和 3D)。这些表示以不同形式描述相同布局,从简单到更完整。这有助于我们研究模型在不同表示下如何处理空间信息。
#### 任务定义。
令 M 表示基于数字的认知地图,o 表示布局观察,p 表示参考框架下目标物体的数值坐标。
**Num2Space**。模型给定认知地图 M,需要选择与指定布局一致的观察 o。干扰候选是通过在保持相同参考框架的同时变化物体位置或大小来构建的。
参考说明图2:数据集统计。**Space2Num**。模型给定观察 o,需要推断参考坐标系下目标物体的数值坐标 p。此任务需要将视觉空间结构锚定到数值表示。
### 2.3 统计
图2 (https://arxiv.org/html/2605.23898#S2.F2) 总结了包含 3800 个样本的基准组成。我们进一步使用相同的全自动流水线生成了额外的 77412 个训练样本,用于后续基于训练的探索。这个更大训练集的详细细分也以灰色显示在图2 (https://arxiv.org/html/2605.23898#S2.F2) 中。
\\cellcolordyncolor!50动态转换\\cellcolorstatcolor!50静态布局Num2SpaceSpace2NumNum2SpaceSpace2Num移动旋转移动旋转1D-地图2D-地图3D-地图1D-地图2D-地图3D-地图方法平均F/BL/RU/DL/RF/BL/RU/DL/RD RD RD RD RD RD\\rowcolorgray!10 随机猜测30.025.025.025.025.025.025.025.025.050.050.025.025.025.025.050.050.025.025.025.025.0\\cellcolororange!6Qwen2.5-VL-72B139.834.038.034.037.040.037.044.041.069.064.528.024.236.026.860.051.233.033.831.032.8\\cellcolorblue!6InternVL3.5-38B239.538.027.030.029.042.038.047.042.069.052.831.024.235.023.253.054.543.032.540.038.2\\cellcolororange!6Qwen2.5-VL-32B338.532.030.036.022.037.033.041.038.071.067.025.023.237.025.263.055.838.028.534.033.2\\cellcolorblue!6InternVL3.5-14B438.236.032.037.027.040.035.053.048.071.066.820.024.027.025.553.054.830.027.534.023.0\\cellcolorcyan!6Qwen3-VL-32B535.926.030.036.025.036.049.044.032.068.050.230.020.832.022.858.057.228.023.029.020.8\\cellcolorblue!6InternVL3.5-8B634.830.028.035.029.045.030.038.028.064.064.821.022.531.022.053.052.836.019.225.020.8\\cellcolorgreen!6Ovis2.5-9B734.722.032.031.023.036.044.041.027.070.066.217.025.021.024.853.058.524.028.726.024.5\\cellcolorblue!6InternVL3.5-4B834.526.029.025.021.035.029.034.036.070.061.030.023.230.022.856.058.230.018.838.018.0\\cellcolorcyan!6Qwen3-VL-8B933.426.033.030.025.035.033.043.030.037.043.826.030.024.026.057.049.539.022.035.022.8\\cellcolorgreen!6Ovis2.5-2B1033.226.022.029.031.027.027.023.024.071.067.028.022.027.024.551.049.528.026.233.027.8\\cellcolorteal!6Cosmos-Reason2-8B1133.124.037.029.025.031.026.027.033.057.053.520.028.020.027.058.050.734.023.830.027.3\\cellcolororange!6Qwen2.5-VL-7B1233.037.022.030.032.029.029.027.030.071.067.021.026.025.027.546.047.529.023.520.020.5\\cellcolorcyan!6Qwen3-VL-4B1332.122.029.026.026.031.035.029.032.041.055.228.023.523.024.557.056.033.020.231.019.5\\cellcolororange!6Qwen2.5-VL-3B1431.924.020.023.029.026.016.025.020.071.067.019.024.830.028.055.041.534.025.541.017.8\\cellcolorteal!6Cosmos-Reason2-2B1531.628.022.023.025.023.026.024.026.071.067.013.027.013.023.548.055.225.027.039.027.3\\cellcolorpurple!6Gemma-3-27B1631.227.025.034.016.024.029.025.027.050.043.225.023.822.022.854.049.032.024.541.029.0\\cellcolorpurple!6Gemma-3-12B1730.621.026.035.021.028.029.027.021.067.055.827.022.524.022.048.042.225.019.525.025.8\\cellcolorpurple!6Gemma-3-4B1828.538.019.025.021.020.025.024.026.035.034.024.023.222.021.256.045.828.027.830.024.5
表 2:SpaceNum 基准结果。报告两个主要类别下的准确率(%):动态转换和静态布局。每个类别包含 Num2Space 和 Space2Num。平均表示宏观平均。**粗体**和下划线分别表示最好和次好,灰色值表示表现甚至低于随机猜测。
## 3 实验
#### 实验设置。
我们在 SpaceNum 上评估了来自 6 个模型家族的 18 个 VLM,参数规模从 2B 到 72B [1 (https://arxiv.org/html/2605.23898#bib.bib4),25 (https://arxiv.org/html/2605.23898#bib.bib5),26 (https://arxiv.org/html/2605.23898#bib.bib6),17 (https://arxiv.org/html/2605.23898#bib.bib7),21 (https://arxiv.org/html/2605.23898#bib.bib8),8 (https://arxiv.org/html/2605.23898#bib.bib9)]。所有模型使用相同的提示格式进行评估,指示它们直接输出选项字母,无需解释或中间推理。我们使用 bfloat16 精度和 Flash Attention 2 进行推理以实现高效评估,温度设为 0.7,top-p 设为 0.9,top-k 设为 50。所有实验在 4 台 NVI相似文章
看见不等于知道:VLMs 知道何时不应回答空间问题吗(以及原因)?
本文介绍了 SpatialUncertain,这是一个用于评估视觉语言模型能否识别因遮挡或视角模糊而无法回答空间问题的基准,揭示了模型过度自信和回避行为不佳的问题。
SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力
SpatialAct是一个新的基于模拟器的基准,用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距:当前的VLM尽管在孤立推理任务上表现良好,但难以维持空间信念并产生可靠的行为。
棋盘是捕捉VLM仍然出错之处的极好方法
一项非正式实验使用棋盘揭示了视觉语言模型尽管能正确识别棋子,但在空间推理和精确结构化输出方面常常失败,突显了VLM评估中的一个关键差距。
哪种预训练范式更能服务于空间智能?视觉语言模型与视频生成模型的实证比较
本文通过系统性的冻结特征探测研究,比较了视觉语言模型(VLMs)和视频生成模型(VGMs)在空间智能任务上的表现。研究发现,VLMs在语义标签和实例分组方面表现优异,而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。
Stream3D-VLM:基于增量几何先验的在线3D空间理解
Stream3D-VLM 是一款在线3D视觉-语言模型,通过增量整合几何先验并使用几何自适应体素压缩,能够从流式视频中实现实时空间理解,在3D空间理解任务上优于现有模型。