哪种预训练范式更能服务于空间智能?视觉语言模型与视频生成模型的实证比较

Hugging Face Daily Papers 论文

摘要

本文通过系统性的冻结特征探测研究,比较了视觉语言模型(VLMs)和视频生成模型(VGMs)在空间智能任务上的表现。研究发现,VLMs在语义标签和实例分组方面表现优异,而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。

空间智能需要视觉表征来捕捉物理世界中的语义对象和几何结构。为此,两种主要的预训练方案现在被广泛用作基础骨干网络:视觉语言模型(VLMs),利用语言监督将视觉观察与语义概念对齐;以及视频生成模型(VGMs),从时间演变的视觉世界中学习。然而,目前尚不清楚哪种预训练方案能更好地为空间智能提供表征基础。在本文中,我们首次对VLMs和VGMs在空间智能的三个代表性维度:语义标签、实例分组和3D几何预测上进行了系统的冻结特征探测研究。通过轻量级探测,我们的框架能够对两个模型家族冻结表征中已编码的信息进行受控比较。实验结果显示明显的互补性:VLMs在语义标签和实例分组上更强,而VGMs提供更易获取的密集几何和相机运动信号。此外,两者的简单融合已经产生了在几何和语义方面都表现出色的表征,这表明通过有效整合两个模型家族的特征来构建更强空间智能骨干网络是一个有前景的方向。我们的代码可在 https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM} 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - 哪种预训练范式更适合空间智能?视觉-语言模型与视频生成模型的实证比较

来源:https://huggingface.co/papers/2605.28132

摘要

一项针对视觉-语言模型与视频生成模型的系统性比较揭示了它们在空间智能任务上的互补优势:视觉-语言模型擅长语义标记与实例分组,而视频生成模型在密集几何结构与相机运动预测方面表现更佳。

空间智能 (https://huggingface.co/papers?q=Spatial%20intelligence) 需要能够同时捕捉物理世界中语义对象与几何结构的视觉表示。为此,目前主要有两种预训练方案被广泛用作基础骨干网络:视觉-语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models)(VLM),通过语言监督将视觉观察与语义概念对齐;以及视频生成模型 (https://huggingface.co/papers?q=Video%20Generation%20Models)(VGM),从时间演化的视觉世界中学习。然而,哪种预训练方案能为空间智能 (https://huggingface.co/papers?q=spatial%20intelligence) 提供更好的表示基底,目前仍不清楚。本文首次对VLM与VGM进行了系统性的冻结特征探测 (https://huggingface.co/papers?q=frozen-feature%20probing) 研究,覆盖空间智能 (https://huggingface.co/papers?q=spatial%20intelligence) 的三个代表维度:语义标记 (https://huggingface.co/papers?q=semantic%20tagging)、实例分组 (https://huggingface.co/papers?q=instance%20grouping) 和3D几何预测 (https://huggingface.co/papers?q=3D%20geometry%20prediction)。利用轻量级探测工具,我们的框架能够控制性地比较两个模型家族在冻结表示中已经编码了哪些信息。实验结果表明了明显的互补性:VLM在语义标记 (https://huggingface.co/papers?q=semantic%20tagging) 和实例分组 (https://huggingface.co/papers?q=instance%20grouping) 上更强,而VGM为密集几何结构与相机运动提供了更易获取的信号。此外,两者的简单融合即可产生在几何与语义上均表现优异的表示,这为通过有效整合两个模型家族的特征来构建更强的空间智能骨干网络提供了一个有前景的方向。我们的代码已开源在 https://github.com/om-ai-lab/Probing-VLM-VGM (https://github.com/om-ai-lab/Probing-VLM-VGM)。

查看arXiv页面 (https://arxiv.org/abs/2605.28132) | 查看PDF (https://arxiv.org/pdf/2605.28132) | GitHub (https://github.com/om-ai-lab/Probing-VLM-VGM) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28132)

在您的智能体中使用这篇论文:

hf papers read 2605.28132

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

尚无模型链接此论文

在模型的README.md中引用 arxiv.org/abs/2605.28132 即可将其从此页面链接。

引用本文的数据集0

尚无数据集链接此论文

在数据集的README.md中引用 arxiv.org/abs/2605.28132 即可将其从此页面链接。

引用本文的Space0

尚无Space链接此论文

在Space的README.md中引用 arxiv.org/abs/2605.28132 即可将其从此页面链接。

包含本文的收藏集0

尚无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可将其从此页面链接。

相似文章

OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试

Papers with Code Trending

OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。