棋盘是捕捉VLM仍然出错之处的极好方法

Reddit r/artificial 2026/06/18 18:24 新闻

摘要

一项非正式实验使用棋盘揭示了视觉语言模型尽管能正确识别棋子，但在空间推理和精确结构化输出方面常常失败，突显了VLM评估中的一个关键差距。

我花了一些时间测试视觉语言模型实际理解的内容与它们能描述的内容之间的差异。棋盘成了一个很好的探测工具，因为布局有一个正确答案（FEN字符串）。模型通常能识别棋子，但会将它们写在错误的格子上。因此，差距并不在于感知，而在于空间推理和让结构化输出完全正确。这让我重新思考我们如何对这些模型进行基准测试。对松散描述的准确性掩盖了在生产中出问题的部分。我们在VideoDB Labs进行了这项实验，作为对VLM评估更广泛研究的一部分。你发现过哪些任务能够揭示这些模型的真正局限性？

查看原文

棋盘是捕捉VLM仍然出错之处的极好方法

相似文章

哪种预训练范式更能服务于空间智能？视觉语言模型与视频生成模型的实证比较

看见不等于知道：VLMs 知道何时不应回答空间问题吗（以及原因）？

Flat-Pack Bench：通过家具组装评估大型视觉-语言模型的时空理解能力

VLM是通过自适应测试时优化进行视频推理的优秀教师

揭示VLM可解释的故障模式

提交意见反馈