video-generation-models

标签

Cards List
#video-generation-models

哪种预训练范式更能服务于空间智能?视觉语言模型与视频生成模型的实证比较

Hugging Face Daily Papers · 2026-05-27 缓存

本文通过系统性的冻结特征探测研究,比较了视觉语言模型(VLMs)和视频生成模型(VGMs)在空间智能任务上的表现。研究发现,VLMs在语义标签和实例分组方面表现优异,而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈