LEVANTE-bench:使用认知任务对VLM与儿童进行多尺度比较(或者,“你的VLM比五年级学生更聪明吗?”)
摘要
本文介绍了LEVANTE-bench,这是一个系统评估视觉-语言模型在六项认知任务上的表现,并将其与5-12岁儿童的表现进行比较的基准测试,发现当前的VLM仅部分与儿童的认知能力相符。
arXiv:2606.05497v1 公告类型:新
摘要:鉴于人类经验固有的多模态特性,视觉-语言模型(VLM)在模拟人类认知随经验增长和发展的过程中具有巨大潜力。实现这一潜力需要工具来比较VLM与人类在不同任务、年龄和人群中的认知发展。我们提出了LEVANTE-bench,这是一个基于学习变异性网络(LEVANTE)的任务和数据的基准测试,该网络分发跨语言和文化测量儿童认知的开源任务和数据。在LEVANTE-bench中,我们系统评估了VLM在六项任务上的表现,比较它们与来自三个国家的5-12岁儿童($N$ = 1547)的一致性。我们在多个尺度上比较模型,评估它们的整体准确性、在任务和项目层面与儿童的一致性,以及它们在试验级错误分布上匹配儿童的程度。一致性在不同尺度上呈现异质性:在任务和项目层面,能力更强的模型与人类的一致性更好。然而,与人类错误分布的匹配在不同任务间差异很大,对于若干任务,较小的模型能更好地匹配年幼儿童的错误。此外,即使是表现最好的VLM在矩阵推理和心理旋转任务上也表现困难。因此,当前的VLM架构仅部分与儿童的认知能力相符。
查看缓存全文
缓存时间: 2026/06/05 08:11
# 使用认知任务对VLM与儿童进行多尺度比较(或,“你的VLM比五年级学生聪明吗?”)
来源:https://arxiv.org/html/2606.05497
Alvin Wei Ming Tan David Cardinal Tania Lorido\-Botrán Laura Bravo\-Sánchez Sunny Yu Michael C\. Frank 斯坦福大学 \{tanawm, david81, botran, lmbravo, syu03, mcfrank\}@stanford\.edu
###### 摘要
鉴于人类经验本质上具有多模态性,视觉语言模型(VLM)在模拟随经验增长和发展的人类认知方面具有巨大潜力。发挥其潜力需要能够在任务、年龄和人群之间将VLM与人类认知发展进行比较的工具。我们提出了LEVANTE-bench,这是一个基于学习变异性网络(LEVANTE)任务和数据的基准测试。LEVANTE分发测量儿童跨语言和跨文化认知的开源任务和数据。在LEVANTE-bench中,我们系统评估了VLM在六项任务上的表现,将其与来自三个国家、年龄在5–12岁之间的儿童(共1547名)的表现进行比较。我们在多个尺度上比较模型,评估其总体准确率、在任务和项目层面与儿童的一致性,以及它们在试次级别上匹配儿童错误分布的程度。一致性在不同尺度上呈现异质性:在任务和项目层面,能力更强的模型与人类的一致性更高。然而,与人类错误分布的匹配程度在不同任务间差异很大,并且对于若干任务,较小的模型能更好地匹配较年幼儿童的错误。此外,即使是表现最好的VLM在矩阵推理和心理旋转任务上也存在困难。因此,当前的VLM架构仅与儿童的认知能力部分对齐。
## 1 引言
人工智能模型作为理解人类学习和认知的科学工具具有巨大潜力[40 (https://arxiv.org/html/2606.05497#bib.bib16),36 (https://arxiv.org/html/2606.05497#bib.bib15)]。尽管语言模型的兴起导致了认知评估工作的激增[54 (https://arxiv.org/html/2606.05497#bib.bib17),3 (https://arxiv.org/html/2606.05497#bib.bib9),14 (https://arxiv.org/html/2606.05497#bib.bib14)],但这些模型的单模态性质是将其用于研究和理解人类认知的一个重要限制[32 (https://arxiv.org/html/2606.05497#bib.bib315)]。特别是,对于对人类学习的效率和鲁棒性感兴趣的研究者而言,语言模型接受的训练数据中语言数据远多于人类,而任何其他类型的数据则远少于人类[16 (https://arxiv.org/html/2606.05497#bib.bib192),53 (https://arxiv.org/html/2606.05497#bib.bib85)]。视觉经验是一种特别丰富的数据形式,它使学习者能够获取关于世界因果结构的信息[2 (https://arxiv.org/html/2606.05497#bib.bib157),22 (https://arxiv.org/html/2606.05497#bib.bib104),1 (https://arxiv.org/html/2606.05497#bib.bib289)]。
参阅图注 图1:(A) LEVANTE-bench六项任务中呈现给人类参与者的示例项目;改编自[24 (https://arxiv.org/html/2606.05497#bib.bib19)]。(B) 模型(按家族着色)和人类(红色)的总体准确率。
视觉语言模型(VLM)[34 (https://arxiv.org/html/2606.05497#bib.bib187),28 (https://arxiv.org/html/2606.05497#bib.bib162)]因此为认知建模提供了重要机遇,特别是对于理解人类发展。首先,VLM可以与人类认知能力进行比较[37 (https://arxiv.org/html/2606.05497#bib.bib21)],甚至可以基于人类视觉经验进行预训练[49 (https://arxiv.org/html/2606.05497#bib.bib184),48 (https://arxiv.org/html/2606.05497#bib.bib219),50 (https://arxiv.org/html/2606.05497#bib.bib290),51 (https://arxiv.org/html/2606.05497#bib.bib291)]。此外,VLM可以使用儿童实验中最常见的多模态格式进行评估[12 (https://arxiv.org/html/2606.05497#bib.bib293),15 (https://arxiv.org/html/2606.05497#bib.bib292)]。这两点观察意味着VLM可能被用来模拟人类发展的重要方面,从而推断哪些行为源于强大的统计学习机制和丰富的经验。这类模型的潜力在于它们可以形式化并实现认知科学的科学理论,例如帮助我们更好地理解认知发展的哪些方面是先天指定的[49 (https://arxiv.org/html/2606.05497#bib.bib184),10 (https://arxiv.org/html/2606.05497#bib.bib294),41 (https://arxiv.org/html/2606.05497#bib.bib296)]。
为了使VLM被用作学习的认知模型,必须将其与人类行为表现并行评估——理想情况下,是在儿童的学习轨迹上进行评估。许多此类工作利用了成人的视觉认知实验[37 (https://arxiv.org/html/2606.05497#bib.bib21),6 (https://arxiv.org/html/2606.05497#bib.bib298),42 (https://arxiv.org/html/2606.05497#bib.bib301)]。然而,一些近期受发展启发的VLM基准评估了模型在通常针对儿童研究的概念和领域上的表现[50 (https://arxiv.org/html/2606.05497#bib.bib290),27 (https://arxiv.org/html/2606.05497#bib.bib297),7 (https://arxiv.org/html/2606.05497#bib.bib299)],有些则直接将VLM与儿童数据进行了比较[50 (https://arxiv.org/html/2606.05497#bib.bib290),44 (https://arxiv.org/html/2606.05497#bib.bib220),60 (https://arxiv.org/html/2606.05497#bib.bib300)]。
然而,比较受到儿童数据收集挑战的限制。大多数数据集仅限英语,降低了认知比较的普适性[4 (https://arxiv.org/html/2606.05497#bib.bib302)]。很少有基准在项目层面比较人类和模型;相反,大多数仅评估总体准确率[45 (https://arxiv.org/html/2606.05497#bib.bib256)]。此外,这些基准中没有一个使用经过心理测量学信度和效度评估的任务[47 (https://arxiv.org/html/2606.05497#bib.bib3)]。最后,很少有研究包含来自同一批儿童样本的多任务数据。最后这一点尤其重要,因为如果任务是在不同样本上校准的,那么进行跨任务比较可能相对无意义。本文旨在填补这些空白。
我们利用一个新的资源:学习变异性网络交换平台(LEVANTE)[13 (https://arxiv.org/html/2606.05497#bib.bib20)]。LEVANTE提供了一套用于测量儿童学习和发展的任务、一个供研究人员使用的任务管理框架,以及从这些任务中收集的全球观测数据。特别是,LEVANTE核心任务是一套经过心理测量学验证的任务,可用于研究5–12岁儿童的学习发展,涵盖数学、执行功能、阅读、语言、空间认知、社会认知和推理等领域[24 (https://arxiv.org/html/2606.05497#bib.bib19)]。这些任务托管在中央平台上,因此当研究人员使用它们进行数据收集时,其数据会流入中央存储库以供开放分发。所有LEVANTE数据和任务资产均获许可用于非商业用途,这意味着它们可以重新用于VLM评估。此外,所有任务通常都会提供给同一批儿童,这意味着可以在儿童之间公平地比较任务难度。
在这项工作中,我们构建了一个评估基准(LEVANTE-bench),允许系统比较VLM表现与人类认知发展,涵盖数学、推理、语言和社会认知等多个任务(图1 (https://arxiv.org/html/2606.05497#S1.F1)A),跨越三种语言(英语、西班牙语和德语),使用了来自超过1500名儿童的数据。任务的难度各不相同:最简单的可由小型开源模型解决,而最难的仍对当前商业前沿模型构成挑战。因此,我们的第一个贡献是提供了迄今为止最大、最全面的数据集,用于比较VLM与儿童的认知。
我们的第二个贡献是提供了一个用于模型与人类多尺度比较的框架。特别是,我们在三个尺度上测量模型-人类一致性:任务难度层面的一致性、任务内项目难度层面的一致性,以及试次级别错误分布层面的一致性。111我们使用术语“一致性”(alignment)来表示人类和模型在特定指标上的高度对应性,而不是特指目标和价值观上的一致性(如AI安全讨论中使用的术语)。该分析的结果表明,一致性在不同尺度上有所不同:虽然较大的模型在任务难度上大致一致,但所有模型在项目难度上充其量只是适度一致,并且在试次级别一致性上呈现异质性。这些结果共同凸显了VLM认知一致性的差距。
## 2 先前工作
大量文献将纯文本语言模型与人类认知进行了比较;总体而言,模型的行为一致性是显著的[54 (https://arxiv.org/html/2606.05497#bib.bib17),58 (https://arxiv.org/html/2606.05497#bib.bib304),19 (https://arxiv.org/html/2606.05497#bib.bib305)],并通过微调得到改善[3 (https://arxiv.org/html/2606.05497#bib.bib9)],尽管当然仍然存在一致性较低的区域[21 (https://arxiv.org/html/2606.05497#bib.bib303),57 (https://arxiv.org/html/2606.05497#bib.bib312),31 (https://arxiv.org/html/2606.05497#bib.bib13)]。一个较小但仍广泛存在的基准和研究集明确将学习轨迹与人类发展进行比较[38 (https://arxiv.org/html/2606.05497#bib.bib11),59 (https://arxiv.org/html/2606.05497#bib.bib10)];其中许多包含了对通常以多模态形式呈现给儿童的任务的语言改写。心理理论评估就是此类评估的一个例子:儿童对他人信念的理解通常使用图画书任务进行评估[56 (https://arxiv.org/html/2606.05497#bib.bib306)],但绝大多数LLM心理理论评估都是纯文本格式的[21 (https://arxiv.org/html/2606.05497#bib.bib303),25 (https://arxiv.org/html/2606.05497#bib.bib307)]。
我们的目标是在多个认知领域量化VLM与儿童之间广泛的发展一致性。与我们当前工作最相关的是将VLM与人类数据和现象进行的发展比较。其中几项集中在特定领域,如视觉认知[27 (https://arxiv.org/html/2606.05497#bib.bib297),7 (https://arxiv.org/html/2606.05497#bib.bib299),55 (https://arxiv.org/html/2606.05497#bib.bib310),39 (https://arxiv.org/html/2606.05497#bib.bib308)]、词汇学习[23 (https://arxiv.org/html/2606.05497#bib.bib309)]、语言[45 (https://arxiv.org/html/2606.05497#bib.bib256)]和关系推理[60 (https://arxiv.org/html/2606.05497#bib.bib300)]。除了Wang等人[50 (https://arxiv.org/html/2606.05497#bib.bib290)],这些研究大多不寻求覆盖多个领域。Wang等人将VLM能力与NIH婴儿工具箱描述的任务进行了比较,该工具是测量幼儿认知的广泛覆盖工具[18 (https://arxiv.org/html/2606.05497#bib.bib311)];然而,数据和刺激的可访问性问题限制了它们直接比较儿童和模型的能力。或许最相关的是,Tan等人[45 (https://arxiv.org/html/2606.05497#bib.bib256)]提出了一种将儿童反应分布与模型进行比较的方法,并将其应用于一系列语言任务。与LEVANTE-bench不同,这些工作缺乏跨越年龄和任务的人类数据,限制了可进行的跨任务比较的强度。
## 3 人类任务和数据
LEVANTE包括一套开放的儿童学习和发展测量工具集合,旨在适用于多个国家、文化和语言[13 (https://arxiv.org/html/2606.05497#bib.bib20)]。所有任务面向5–12岁儿童设计,并计划向下延伸至2–5岁。目前,任务提供英语、西班牙语和德语版本。通过LEVANTE框架收集的所有数据均在Redivis上开放重用。222参见http://researcher.levante-network.org/了解项目、任务和数据的更多细节。请注意,使用LEVANTE数据需要确认数据使用协议。我们从LEVANTE核心任务组[24 (https://arxiv.org/html/2606.05497#bib.bib19)]中选择了六项任务,基于它们适合VLM处理以及使用简单的多项选择格式(见图1 (https://arxiv.org/html/2606.05497#S1.F1)A):
- 数学。每个项目是一个数学问题,包括简单的四选一强制选择(4-AFC)数字识别、比较、算术和分数问题。数轴项目因不采用多项选择格式而被排除。
- 矩阵推理。每个项目是一个3×3的图像矩阵,构成一个模式,缺少右下角元素。参与者必须推断出四个选项中哪一个符合该模式(4-AFC)。
- 心理理论。每个项目是一个故事,附带2选1、3选1或4选1的问题,考察对故事中人物信念和情绪的推理。
- 心理旋转。每个项目是一个形状(2D轮廓或3D形状),必须旋转以匹配两个目标之一(一个旋转,一个镜像;2-AFC)。
- 句子理解。每个项目是一个句子,必须与四幅图片之一匹配(4-AFC)。
- 词汇。每个项目是一个单词,必须与四幅图片之一匹配(4-AFC)。
我们使用来自LEVANTE 2026.1数据发布的人类反应数据,该数据包含来自哥伦比亚(1020名)、加拿大(188名)和德国(339名)5–12岁儿童的数据,总计309,108个试次级别的反应,涵盖所有任务。333哥伦比亚参与者数量较多,是因为并非所有参与者在该环境中完成了所有任务,因此招募了更多参与者以达到每个任务的目标参与者数量。哥伦比亚的数据在学校收集;加拿大的数据在实验室环境收集;德国的数据在参与者家中远程收集。关于数据收集的更多细节,参见Kachergis等人[24 (https://arxiv.org/html/2606.05497#bib.bib19)]。
## 4 人类-模型比较
LEVANTE任务包含难度范围广泛的项目,适合较小和较大的儿童。为了避免无聊和挫败感,并非所有参与者都看到所有项目;相反,在初始规范数据收集阶段之后,任务变得自适应,使得项目基于其对每个答题者的估计难度在线选择。因此,个体儿童的得分不是基于他们在所有项目上的正确比例,而是使用项目反应理论(IRT)模型,该模型分配一个能力值θ,由形如P(ri,j=1|θi,δj)=eθi−δj1+eθi−δj的模型拟合确定,其中ri,j是参与者i对项目j的反应[11 (https://arxiv.org/html/2606.05497#bib.bib313),46 (https://arxiv.org/html/2606.05497#bib.bib2)]。444在实践中,LEVANTE核心任务的评分模型使用Rasch模型(如文中所述)或心理旋转任务的二参数逻辑模型(2PL),并且所有模型还包括每个项目的猜测下限,该下限根据每个项目可用选项的数量指示其机会水平。所有模型,除了词汇模型……(原文中断)相似文章
Almieyar-Oryx-BloomBench:一种用于认知驱动评估视觉语言模型的双语多模态基准
BloomBench是一个基于认知理论的双语(英语-阿拉伯语)多模态视觉语言模型基准,系统评估基于布鲁姆分类学的六个认知层次。实验揭示了当前模型中显著的认知不对称和跨语言性能差距。
OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试
OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。
VLegal-Bench: 越南法律推理认知基础基准测试
VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。