哪种预训练范式更能服务于空间智能?视觉语言模型与视频生成模型的实证比较
摘要
本文通过系统性的冻结特征探测研究,比较了视觉语言模型(VLMs)和视频生成模型(VGMs)在空间智能任务上的表现。研究发现,VLMs在语义标签和实例分组方面表现优异,而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。
查看缓存全文
缓存时间: 2026/06/02 03:24
论文页面 - 哪种预训练范式更适合空间智能?视觉-语言模型与视频生成模型的实证比较
来源:https://huggingface.co/papers/2605.28132
摘要
一项针对视觉-语言模型与视频生成模型的系统性比较揭示了它们在空间智能任务上的互补优势:视觉-语言模型擅长语义标记与实例分组,而视频生成模型在密集几何结构与相机运动预测方面表现更佳。
空间智能 (https://huggingface.co/papers?q=Spatial%20intelligence) 需要能够同时捕捉物理世界中语义对象与几何结构的视觉表示。为此,目前主要有两种预训练方案被广泛用作基础骨干网络:视觉-语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models)(VLM),通过语言监督将视觉观察与语义概念对齐;以及视频生成模型 (https://huggingface.co/papers?q=Video%20Generation%20Models)(VGM),从时间演化的视觉世界中学习。然而,哪种预训练方案能为空间智能 (https://huggingface.co/papers?q=spatial%20intelligence) 提供更好的表示基底,目前仍不清楚。本文首次对VLM与VGM进行了系统性的冻结特征探测 (https://huggingface.co/papers?q=frozen-feature%20probing) 研究,覆盖空间智能 (https://huggingface.co/papers?q=spatial%20intelligence) 的三个代表维度:语义标记 (https://huggingface.co/papers?q=semantic%20tagging)、实例分组 (https://huggingface.co/papers?q=instance%20grouping) 和3D几何预测 (https://huggingface.co/papers?q=3D%20geometry%20prediction)。利用轻量级探测工具,我们的框架能够控制性地比较两个模型家族在冻结表示中已经编码了哪些信息。实验结果表明了明显的互补性:VLM在语义标记 (https://huggingface.co/papers?q=semantic%20tagging) 和实例分组 (https://huggingface.co/papers?q=instance%20grouping) 上更强,而VGM为密集几何结构与相机运动提供了更易获取的信号。此外,两者的简单融合即可产生在几何与语义上均表现优异的表示,这为通过有效整合两个模型家族的特征来构建更强的空间智能骨干网络提供了一个有前景的方向。我们的代码已开源在 https://github.com/om-ai-lab/Probing-VLM-VGM (https://github.com/om-ai-lab/Probing-VLM-VGM)。
查看arXiv页面 (https://arxiv.org/abs/2605.28132) | 查看PDF (https://arxiv.org/pdf/2605.28132) | GitHub (https://github.com/om-ai-lab/Probing-VLM-VGM) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28132)
在您的智能体中使用这篇论文:
hf papers read 2605.28132
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
尚无模型链接此论文
在模型的README.md中引用 arxiv.org/abs/2605.28132 即可将其从此页面链接。
引用本文的数据集0
尚无数据集链接此论文
在数据集的README.md中引用 arxiv.org/abs/2605.28132 即可将其从此页面链接。
引用本文的Space0
尚无Space链接此论文
在Space的README.md中引用 arxiv.org/abs/2605.28132 即可将其从此页面链接。
包含本文的收藏集0
尚无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可将其从此页面链接。
相似文章
从视频中学习几何表征以赋予多模态大语言模型空间智能
GeoVR 通过利用多个几何目标从3D基础模型中蒸馏几何知识,重构多模态大语言模型的语义潜空间,从而增强其3D感知能力。
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
超越3D VQA:将3D空间先验注入视觉语言模型以增强几何推理
本文提出GASP框架,通过深度监督结合对比损失和深度一致性损失将几何先验注入视觉语言模型,在3D空间推理基准上取得了显著提升,且无需使用3D VQA数据。
OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试
OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。
为什么远处看起来在上方:探究视觉-语言模型中的空间表征
探究视觉-语言模型中的空间表征,揭示了一个普遍存在的偏差:模型将图像中的垂直位置与距离混为一谈,并引入了 SpatialTunnel 合成基准来暴露这一捷径;研究发现,更好的解耦空间表征能提升模型的鲁棒性。