标签
用户使用192个提示词对本地文本到图像模型进行了全面对比,评估了文本渲染、人脸、人体解剖、空间构图等能力,结果和提示词已在imagebench.ai上公开。
一项非正式实验使用棋盘揭示了视觉语言模型尽管能正确识别棋子,但在空间推理和精确结构化输出方面常常失败,突显了VLM评估中的一个关键差距。
一位博士生在顶级影像会议被拒后,询问将视觉-语言模型评测工作投到 EMNLP workshop 是否划算。