棋盘是捕捉VLM仍然出错之处的极好方法

Reddit r/artificial 新闻

摘要

一项非正式实验使用棋盘揭示了视觉语言模型尽管能正确识别棋子,但在空间推理和精确结构化输出方面常常失败,突显了VLM评估中的一个关键差距。

我花了一些时间测试视觉语言模型实际理解的内容与它们能描述的内容之间的差异。棋盘成了一个很好的探测工具,因为布局有一个正确答案(FEN字符串)。模型通常能识别棋子,但会将它们写在错误的格子上。因此,差距并不在于感知,而在于空间推理和让结构化输出完全正确。这让我重新思考我们如何对这些模型进行基准测试。对松散描述的准确性掩盖了在生产中出问题的部分。我们在VideoDB Labs进行了这项实验,作为对VLM评估更广泛研究的一部分。你发现过哪些任务能够揭示这些模型的真正局限性?
查看原文

相似文章

揭示VLM可解释的故障模式

arXiv cs.AI

本文介绍了Revelio,这是一个通过搜索离散概念组合来系统性地发现视觉语言模型(VLM)中可解释故障模式的框架。应用于自动驾驶和室内机器人领域,它揭示了此前未报道的、可能导致碰撞或安全危险的漏洞。