标签
本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。
Count Anything 是一个通用的视觉模型,用于跨多个领域的文本引导目标计数,采用双粒度实例枚举和互补计数融合。它实现了高精度和跨领域泛化能力,优于现有的开放世界计数方法。
文章指出,尽管有现代科学仪器,所有测量最终都源于两种古老技术:比较和计数,并通过尺子和日晷等例子加以说明。