哪种预训练范式更能服务于空间智能？视觉语言模型与视频生成模型的实证比较

Hugging Face Daily Papers 2026/05/27 00:00 论文

摘要

本文通过系统性的冻结特征探测研究，比较了视觉语言模型（VLMs）和视频生成模型（VGMs）在空间智能任务上的表现。研究发现，VLMs在语义标签和实例分组方面表现优异，而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。

空间智能需要视觉表征来捕捉物理世界中的语义对象和几何结构。为此，两种主要的预训练方案现在被广泛用作基础骨干网络：视觉语言模型（VLMs），利用语言监督将视觉观察与语义概念对齐；以及视频生成模型（VGMs），从时间演变的视觉世界中学习。然而，目前尚不清楚哪种预训练方案能更好地为空间智能提供表征基础。在本文中，我们首次对VLMs和VGMs在空间智能的三个代表性维度：语义标签、实例分组和3D几何预测上进行了系统的冻结特征探测研究。通过轻量级探测，我们的框架能够对两个模型家族冻结表征中已编码的信息进行受控比较。实验结果显示明显的互补性：VLMs在语义标签和实例分组上更强，而VGMs提供更易获取的密集几何和相机运动信号。此外，两者的简单融合已经产生了在几何和语义方面都表现出色的表征，这表明通过有效整合两个模型家族的特征来构建更强空间智能骨干网络是一个有前景的方向。我们的代码可在 https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM} 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - 哪种预训练范式更适合空间智能？视觉-语言模型与视频生成模型的实证比较

来源：https://huggingface.co/papers/2605.28132

摘要

一项针对视觉-语言模型与视频生成模型的系统性比较揭示了它们在空间智能任务上的互补优势：视觉-语言模型擅长语义标记与实例分组，而视频生成模型在密集几何结构与相机运动预测方面表现更佳。

空间智能 (https://huggingface.co/papers?q=Spatial%20intelligence) 需要能够同时捕捉物理世界中语义对象与几何结构的视觉表示。为此，目前主要有两种预训练方案被广泛用作基础骨干网络：视觉-语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models)（VLM），通过语言监督将视觉观察与语义概念对齐；以及视频生成模型 (https://huggingface.co/papers?q=Video%20Generation%20Models)（VGM），从时间演化的视觉世界中学习。然而，哪种预训练方案能为空间智能 (https://huggingface.co/papers?q=spatial%20intelligence) 提供更好的表示基底，目前仍不清楚。本文首次对VLM与VGM进行了系统性的冻结特征探测 (https://huggingface.co/papers?q=frozen-feature%20probing) 研究，覆盖空间智能 (https://huggingface.co/papers?q=spatial%20intelligence) 的三个代表维度：语义标记 (https://huggingface.co/papers?q=semantic%20tagging)、实例分组 (https://huggingface.co/papers?q=instance%20grouping) 和3D几何预测 (https://huggingface.co/papers?q=3D%20geometry%20prediction)。利用轻量级探测工具，我们的框架能够控制性地比较两个模型家族在冻结表示中已经编码了哪些信息。实验结果表明了明显的互补性：VLM在语义标记 (https://huggingface.co/papers?q=semantic%20tagging) 和实例分组 (https://huggingface.co/papers?q=instance%20grouping) 上更强，而VGM为密集几何结构与相机运动提供了更易获取的信号。此外，两者的简单融合即可产生在几何与语义上均表现优异的表示，这为通过有效整合两个模型家族的特征来构建更强的空间智能骨干网络提供了一个有前景的方向。我们的代码已开源在 https://github.com/om-ai-lab/Probing-VLM-VGM (https://github.com/om-ai-lab/Probing-VLM-VGM)。

查看arXiv页面 (https://arxiv.org/abs/2605.28132) | 查看PDF (https://arxiv.org/pdf/2605.28132) | GitHub (https://github.com/om-ai-lab/Probing-VLM-VGM) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28132)

在您的智能体中使用这篇论文：

hf papers read 2605.28132

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

尚无模型链接此论文

在模型的README.md中引用 arxiv.org/abs/2605.28132 即可将其从此页面链接。

引用本文的数据集0

尚无数据集链接此论文

在数据集的README.md中引用 arxiv.org/abs/2605.28132 即可将其从此页面链接。

引用本文的Space0

尚无Space链接此论文

在Space的README.md中引用 arxiv.org/abs/2605.28132 即可将其从此页面链接。

包含本文的收藏集0

尚无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可将其从此页面链接。

哪种预训练范式更能服务于空间智能？视觉语言模型与视频生成模型的实证比较

论文页面 - 哪种预训练范式更适合空间智能？视觉-语言模型与视频生成模型的实证比较

摘要

引用本文的模型0

引用本文的数据集0

引用本文的Space0

包含本文的收藏集0

相似文章

从视频中学习几何表征以赋予多模态大语言模型空间智能

VLM是通过自适应测试时优化进行视频推理的优秀教师

超越3D VQA：将3D空间先验注入视觉语言模型以增强几何推理

OVO-S-Bench：面向多模态大语言模型流式空间智能的层次化基准测试

为什么远处看起来在上方：探究视觉-语言模型中的空间表征

提交意见反馈