棋盘是捕捉VLM仍然出错之处的极好方法
摘要
一项非正式实验使用棋盘揭示了视觉语言模型尽管能正确识别棋子,但在空间推理和精确结构化输出方面常常失败,突显了VLM评估中的一个关键差距。
我花了一些时间测试视觉语言模型实际理解的内容与它们能描述的内容之间的差异。棋盘成了一个很好的探测工具,因为布局有一个正确答案(FEN字符串)。模型通常能识别棋子,但会将它们写在错误的格子上。因此,差距并不在于感知,而在于空间推理和让结构化输出完全正确。这让我重新思考我们如何对这些模型进行基准测试。对松散描述的准确性掩盖了在生产中出问题的部分。我们在VideoDB Labs进行了这项实验,作为对VLM评估更广泛研究的一部分。你发现过哪些任务能够揭示这些模型的真正局限性?
相似文章
哪种预训练范式更能服务于空间智能?视觉语言模型与视频生成模型的实证比较
本文通过系统性的冻结特征探测研究,比较了视觉语言模型(VLMs)和视频生成模型(VGMs)在空间智能任务上的表现。研究发现,VLMs在语义标签和实例分组方面表现优异,而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。
看见不等于知道:VLMs 知道何时不应回答空间问题吗(以及原因)?
本文介绍了 SpatialUncertain,这是一个用于评估视觉语言模型能否识别因遮挡或视角模糊而无法回答空间问题的基准,揭示了模型过度自信和回避行为不佳的问题。
Flat-Pack Bench:通过家具组装评估大型视觉-语言模型的时空理解能力
介绍了Flat-Pack Bench,一个通过家具组装任务评估大型视觉-语言模型细粒度时空推理能力的基准测试。实验表明,当前的LVLMs在跟踪和空间交互方面存在困难。
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
揭示VLM可解释的故障模式
本文介绍了Revelio,这是一个通过搜索离散概念组合来系统性地发现视觉语言模型(VLM)中可解释故障模式的框架。应用于自动驾驶和室内机器人领域,它揭示了此前未报道的、可能导致碰撞或安全危险的漏洞。