Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
摘要
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。
查看缓存全文
缓存时间: 2026/04/22 10:35
论文页面 - Mind’s Eye:面向多模态大模型的视觉抽象、变换与组合基准
来源:https://huggingface.co/papers/2604.16054
摘要
多模态大语言模型在视觉-空间推理任务上相比人类表现存在显著差距,暴露出视觉注意力、知觉操作与概念抽象方面的不足。
多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20large%20language%20models)(MLLMs)在视觉-语言基准(https://huggingface.co/papers?q=vision%20language%20benchmarks)上已取得令人瞩目的进展,但其视觉认知与空间推理能力仍缺乏深入理解。我们推出“Mind’s Eye”——一项包含八项视觉认知任务的选择题基准,灵感来自经典人类智力测验,并按全新的“A-R-T”分类法组织:抽象(Abstraction)、关系(Relation)与变换(Transformation)。这些任务探测流体智力(https://huggingface.co/papers?q=fluid%20intelligence)的核心过程,如模式归纳(https://huggingface.co/papers?q=pattern%20induction)、类比关系映射(https://huggingface.co/papers?q=analogical%20relation%20mapping)与心理旋转(https://huggingface.co/papers?q=mental%20transformation)。我们评估了多款闭源与开源 MLLM,并与人类参与者对比。人类准确率达 80%,而表现最佳的 MLLM 仍低于 50%。错误分析揭示了三类失败:(i)视觉注意力分配(https://huggingface.co/papers?q=visual%20attention%20allocation)、(ii)内部知觉操作(https://huggingface.co/papers?q=internal%20perceptual%20manipulation)、(iii)对底层视觉概念的弱抽象。结果表明,当前 MLLM 的视觉-空间推理能力仍有限,亟需更具认知基础的评估框架。
查看 arXiv 页面(https://arxiv.org/abs/2604.16054)查看 PDF(https://arxiv.org/pdf/2604.16054)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16054)
让智能体阅读该论文:
hf papers read 2604.16054
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2604.16054 即可在此页面显示。
引用该论文的数据集 0
暂无数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.16054 即可在此页面显示。
引用该论文的 Spaces 0
暂无 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2604.16054 即可在此页面显示。
包含该论文的收藏 0
暂无收藏包含该论文
将该论文加入收藏(https://huggingface.co/new-collection)即可在此页面显示。
相似文章
多模态大语言模型评估中我们缺失了什么?
本文回顾了当前多模态大语言模型评估基准,找出了关键差距,如时空连贯性、物理世界理解、多模态一致性和选择性注意力,并指出现有的孤立任务基准无法衡量真正的跨模态整合。
MemEye:面向多模态智能体记忆的视觉中心评估框架
MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。
WorldBench:一个具有挑战性且视觉多样化的多模态推理基准
介绍WorldBench,一个视觉多样化的多模态推理基准,揭示了当前多模态大语言模型在视觉理解方面的显著局限性。
BilliardPhys-Bench: 多模态大语言模型的物理推理与视觉动态基准测试
BilliardPhys-Bench 是一个新的基准测试,通过合成台球场景来评估多模态大语言模型的物理推理能力,要求预测碰撞和最终球的位置。论文发现,当前模型在较长的模拟中表现不佳,并表现出一种“静态偏差”——在不确定时预测无交互。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。