生成式人工智能模型代际间认知能力的不均衡演化

Reddit r/singularity 论文

摘要

本文提出了一种心理测量框架及 AIQ 基准测试,用于评估生成式人工智能模型的认知特征,揭示了其演化过程的不均衡性:言语能力表现强劲,但知觉推理能力停滞不前。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/11 04:30

# 生成式 AI 模型各代际间认知能力的非均衡演进

来源:https://arxiv.org/html/2605.06815
通讯作者:\{jedm, isaacgl\}@google.com
报告编号:Daniel McDuff
Google 研究
华盛顿大学
Xin Liu
Google 研究
华盛顿大学
Jed McGiffin
通讯作者
Google 研究
华盛顿大学

###### 摘要
追求通用人工智能(AGI)需要强有力的方法,以评估模型在狭窄任务性能之外的认知能力。在此,我们引入了一种心理测量框架,用于评估生成式 AI 的认知特征,将其与人类标准进行比较,并追踪其跨代际的演变。初步评估利用改编自韦克斯勒成人智力量表(WAIS)的任务对领先的多模态模型进行测试,揭示了极度不均衡的认知架构:言语理解和记忆工作表现接近天花板(>第98百分位),而知觉推理表现接近地板(<第1百分位)。为了追踪超出人类标准化极限的发展轨迹,我们开发了人工智能商数(AIQ)基准测试,并将其应用于六个代际和两个模型家族,揭示了显著但不对称的性能提升。值得注意的是,我们发现模态之间存在明显的解离;当以语言形式呈现时,抽象定量推理的成熟速度远远快于视觉上类似的形式,这表明架构上偏向基于语言的符号操作。尽管抽象视觉推理有所改善,但视觉感知组织仍然 largely 停滞不前。总体而言,这些发现表明生成式模型的认知能力正在不均衡地演进,暗示仅靠缩放和优化 AGI 发展的方法可能不足以克服在实现平衡、类人通用智能方面的根本性架构限制。

## 1. 引言
通用人工智能(AGI)的发展需要生成式模型从狭窄的专家系统演变为能够在不同背景下进行自适应学习、推理和解决新问题的系统\[goertzel2014artificial,legg2007collection\]。实现这一目标需要超越模式识别,迈向镜像生物智能的能力,后者依赖于核心认知能力来执行高度多样化的任务\[lake2017building\]。以韦克斯勒成人智力量表第四版(WAIS-IV)为例的标准化认知评估,为人类此类评估提供了典范框架,在言语理解、知觉推理和工作记忆等既定领域提供规范性指标\[wechsler2008wechsler\]。它们揭示相对认知优势和劣势的能力,使其成为映射 AI 认知特征的理想起点。

为了严格基准化 AI 的认知发展,我们采用了双管齐下的心理测量方法。首先,我们将 WAIS-IV 的分测验改编为适用于一系列当代多模态模型的测试。这项初步评估揭示了一个极其不均衡的认知特征:模型在言语理解和工作记忆任务上表现出卓越的性能,达到或超过第 98 百分位,而在知觉推理方面表现出严重缺陷,得分 consistently 低于第 1 百分位。这一发现证实,虽然人类标准化测试建立了关键的基线,但其明显的天花板和地板效应使其不足以追踪高级 AI 能力的成熟。

认识到这些局限性,我们随后开发了人工智能商数(AIQ)基准测试。这一研究方案包括类似于经典认知测试的新数据集,但经过工程设计,其难度可扩展至远超人类极限。通过将仪器与模型性能分布标准化,AIQ 提供了敏感的测量手段,以克服人类测试中观察到的天花板效应。这种双重方法论为绘制生成式模型中认知能力的非均衡演变图表,并识别可能制约向 AGI 进步的架构瓶颈提供了全面的框架。

## 2. 方法
我们的双管齐下方法涉及将标准化人类认知测试改编为 AI 模型测试,随后开发一种以 AI 为中心的新评估体系——AIQ 基准测试。

### 2.1 标准化认知评估的改编
韦克斯勒成人智力量表(WAIS)被广泛认为是临床评估的金标准,是世界上使用最广泛的认知功能测量工具(\[wright2017assessment\]),旨在通过系统抽样核心认知域(言语理解和推理、视觉-知觉推理、工作记忆和处理速度)的表现来推导总体智商(IQ)。我们最初改编了韦克斯勒成人智力量表第四版(WAIS-IV; \[wechsler2008wechsler\])中的选定分测验,针对言语理解指数(VCI;相似性、词汇、信息、理解)、知觉推理指数(PRI;矩阵推理、视觉拼图、图形重量、图片完成)和工作记忆指数(WMI;数字广度、算术、字母-数字排序)。需要图形运动能力的分测验(即积木设计、编码、取消)被省略,导致无法计算处理速度指数(PSI)的分数。这一初始阶段涉及对几个早期和当前代际的多模态模型进行测试,以建立广泛的比较基线。测试的模型包括 OpenAI 的 GPT-4 Turbo 和 GPT-4o,Google 的 Gemini Flash 1.5 和 Pro 1.5,以及 Anthropic 的 Claude 3 Opus 和 Claude 3.5 Sonnet。WAIS-IV 项目被转换为基于文本或多模态的提示。模型输出由训练有素的临床心理学家根据 WAIS-IV 标准进行评分,以生成复合分数和相对于人类规范性数据的百分位排名。

### 2.2 AIQ 基准测试的开发
为了解决人类标准化心理测量工具的局限性,并提供对当前和未来 AI 能力更敏感的测量,开发了 AIQ 基准测试。该基准测试由类似于 WAIS-IV 的分测验组成,包括矩阵推理、图片完成、图形重量以及言语/工作记忆任务的类似物。所有分测验都包含新颖的、程序生成的项目池,旨在实现可扩展的难度和自动化管理。

#### 2.2.1 AIQ 言语推理
创建了两个新颖的分测验,以评估 AI 模型在言语推理领域的表现,这是先前模型在现有基准测试中达到天花板水平性能的领域。
**AIQ 词汇:** 这个 184 项的分测验是为了扩展其 WAIS-IV 类似物的难度而开发的。词频数据用于指导项目创建,从 SUBTLEXUS 数据库中采样\[brysbaert2009moving\]。为了增加难度,实施了加权采样程序,以 heavily 倾向于低频(罕见)英语词汇而非高频(常见)词汇。格式要求模型从五个多项选择题中识别给定目标词的正确定义(参见附录 C 中的示例项目)。
**AIQ 代数推理(文本):** 这个 39 项的分测验衡量复杂的演绎和代数推理。虽然它没有直接的 WAIS-IV 类似物,但它被设计为基于图像的 AIQ 代数推理(图像)分测验的言语同构对应物。两个版本都利用相同的数学框架:设计为“欠定”(变量数量 > 方程数量)的线性方程组。这确保了 definitive 解决方案需要高级演绎,而不是简单的代入。项目是通过将核心代数方程翻译为平衡天平的叙述描述来开发的。在每个项目中,纯英文文本描述最多四个建立各种形状相对重量的平衡天平。然后,模型必须通过从五个基于文本的多项选择题中选择正确的形状组合来确定最终天平的缺失值,这些选项受到约束以确保单一唯一解。

#### 2.2.2 AIQ 工作记忆
开发了四个分测验以评估工作记忆容量和心理操作的不同方面。为了评估表现,每次试验都采用四选项多项选择格式。干扰项通过细微变化构建——如转置、省略或替换项目——以区分高精度回忆和近似模式匹配。
**AIQ 数字注意力:** 这个 18 项的分测验衡量基本的数字注意力和工作记忆跨度容量。向模型呈现数字目标序列,必须从可用的多项选择题中识别正确的逐字字符串。
**AIQ 数字操作:** 这个 18 项的分测验旨在衡量数字信息的心理操作。向模型呈现由数字 1-9 组成的数字目标序列,并要求选择正确描绘目标序列逆序的多项选择题。
**AIQ 数字排序:** 在这个 18 项的分测验中,模型必须识别重新排序为升序的数字目标序列。此任务评估同时持有、处理和组织信息的能力。
**AIQ 字母数字排序:** 这个 18 项的分测验呈现字母和数字的混合字符串。任务要求模型识别正确重新排序的字符串,首先是数字(按升序),然后是字母(按字母顺序)。
对于所有四个工作记忆分测验,难度通过增加 18 次试验中的序列长度系统地扩展。虽然相应的 WAIS-IV 分测验峰值长度为八项(数字广度反向和字母-数字排序)或九项(数字广度正向和排序),但 AIQ 版本包括从 2 到 1,600 项的序列。这提供了显著超出人类工作记忆容量的测试天花板,允许区分当前和未来大型语言模型的性能极限。

#### 2.2.3 AIQ 视觉-知觉推理
开发了三个视觉推理分测验,为此从头生成了完全新颖的刺激集。这一过程受其 WAIS-IV 类似物的心理测量原则指导,但设计用于系统地拓宽底层逻辑的范围和复杂性。
**AIQ 模式完成:** 对于这个 45 项、5 选项多项选择数据集,分析了 WAIS-IV 和瑞文渐进矩阵的逻辑原理。虽然保留基础结构(例如,2x2 进展),但新的刺激集被程序生成为包含更复杂的逻辑规则,如数学进展(例如,加倍函数、斐波那契数列)、多步旋转/颜色模式以及复杂的图形-背景关系(参见附录 A)。
**AIQ 代数推理(图像):** 这个 39 项的测试是基于 WAIS-IV 版本的定量推理原理开发的。新项目集有两个关键区别:(1)每个项目的最大天平数量从三个增加到四个,(2)项目包括分数形状,需要非整数值计算。
**AIQ 异常检测:** 对于这个 49 项的分测验,通过两阶段过程创建了一组新的刺激。首先,使用 Imagen 3\[baldridge2024imagen\],一种潜在扩散文本到图像模型,生成完整图像(线条画和照片级真实场景)。其次,每个图像在 Adobe®Photoshop\[Photoshop26.3.0\] 中进行后处理,以数字方式移除必要的视觉元素。这种方法导致了一个新颖的项目集,其尺寸更大,缺失元素更微妙且上下文集成度更高,优于 WAIS-IV 原版。

#### 2.2.4 测试规模和项目验证
为了评估九个个别 AIQ 基准测试分测验中每个测试的性能稳定性和难度扩展的有效性,我们分析了连续项目子集上的引导准确性分布。对于九个分测验中的每一个,我们为三种累积测试长度构建了采样分布:小(前 1/3 的项目)、中(前 2/3)和全(完整项目集)。分布是通过从项目级响应数据中进行 2,000 次有放回重采样,对模型的平均准确性进行引导生成的(图 4 (https://arxiv.org/html/2605.06815#A1.F4))。这一分析表明,随着累积测试集的增长并纳入越来越难的项目,分布从高准确性天花板效应过渡到近似正态分布。这种收敛表明 AIQBench 分测验成功地激发了与传统心理测量范式一致的性能方差。

接下来,我们检查了每个 AIQ 分测验中聚合性能的斜率和方差与逐渐困难的测试问题之间的关系。除 AIQ 词汇分测验外,所有分测验在项目难度与表现的关系上都显示出显著的斜率(图 5 (https://arxiv.org/html/2605.06815#A1.F5)),后者在问题间显示出平坦的斜率。这表明模型发现 AIQ 词汇测试问题大致同样容易,即使测试项目中的英语语言出现频率逐渐降低。

### 2.3 数据和实施
AIQ 基准测试建立在 Google Cloud API 之上。这种集成允许对多样化的生成式 AI 模型进行标准化测试管理,利用现有的模型推理和输出捕获基础设施。数据分析和可视化主要使用 Python 进行。开发了自定义脚本来处理模型响应、计算准确性分数并生成各种描述性统计。利用 Pandas 等库进行数据操作,Matplotlib 和 Seaborn 用于创建可视化,包括结果中呈现的直方图和性能图。如统计分析部分所述,广义线性混合模型(GLMMs)在 R 中使用 lme4 包运行。lme4 包提供了指定 AIQBench_Test 和 Item_ID 随机截距的必要功能,从而适当控制测试和项目难度的变异性。事后分析和显著性测试也在 R 环境中进行。

### 2.4 统计分析
为了正式评估 Gemini 模型版本在 AIQ 基准测试上的表现差异,指定了一个具有二项误差分布(logit 链接)的广义线性混合模型(GLMM)。该模型根据模型版本预测正确项目响应的对数几率,同时考虑测试和项目间的变异性。GLMM 规范包括 time_code 作为固定效应,一个代表六个 Gemini 模型(1.5 Flash, 1.5 Pro, 2.5 Flash, 2.5 Pro, 3.0 Flash, 3.1 Pro)的顺序因子,以 Flash 1.5 作为参考水平。为了考虑数据中的非独立性,模型还包括 AIQBench_Test 的随机截距,允许基线难度在九种不同分测验中变化,以及 Item_ID 的随机截距,允许难度在组成 AIQ 基准测试数据集的那些测试中的 428 个唯一项目之间变化。

相似文章

评估交互式AI智能体的认知年龄对齐

Hugging Face Daily Papers

本文介绍了ChildAgentEval,这是一个基于心理测量学的基准测试,用于评估基于MLLM的智能体的认知年龄对齐,将其推理与人类发展阶段进行比较。

衡量通向AGI的进展:一个认知框架

Google DeepMind Blog

Google DeepMind发布了一篇论文,提出了一个衡量通向通用人工智能(AGI)进展的认知框架,识别了十项关键认知能力,并发起了一场Kaggle黑客马拉松以构建相关评估方法。