video-generation-models

#video-generation-models

哪种预训练范式更能服务于空间智能？视觉语言模型与视频生成模型的实证比较

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文通过系统性的冻结特征探测研究，比较了视觉语言模型（VLMs）和视频生成模型（VGMs）在空间智能任务上的表现。研究发现，VLMs在语义标签和实例分组方面表现优异，而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。

0 人收藏 0 人点赞