元认知监测电池:LLM自我监测的跨域基准

arXiv cs.CL 论文

摘要

一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。

arXiv:2604.15702v1 宣布类型:新 摘要:我们介绍了一种针对LLM中监测-控制耦合的跨域行为测试方法,以Nelson和Narens(1990)的元认知框架为基础,将人类心理测量方法应用于LLM评估。该电池包含524个项目,涵盖六个认知领域(学习、元认知校准、社会认知、注意力、执行功能、前瞻性调节),每个领域都基于既定的实验范式。任务T1-T5在数据收集前已在OSF上进行了预注册;T6作为探索性扩展被添加。在每次强制选择回答后,改编自Koriat和Goldsmith(1996)的双探针要求模型选择保留或撤回其答案,以及下注或放弃。关键指标是撤回三角洲:不正确和正确项目之间撤回率的差异。应用于20个前沿LLM(10,480次评估),该电池识别出三种与Nelson-Narens架构一致的配置:绝对信心、绝对撤回和选择性敏感性。准确率排名与元认知敏感性排名基本相反。回顾性监测和前瞻性调节似乎可相互分离(r = .17,95% CI由于n=20而较宽;示例性证据是主要支持)。元认知校准的扩展性是架构相关的:单调递减(Qwen)、单调递增(GPT-5.4)或平稳(Gemma)。行为发现在结构上与独立的Type-2 SDT方法收敛,提供了初步的跨方法构念效度。所有项目、数据和代码:https://github.com/synthiumjp/metacognitive-monitoring-battery
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:28

# LLM 自我监测的跨域基准测试
来源:https://arxiv.org/html/2604.15702

## 元认知监测电池:LLM 自我监测的跨域基准

Jon-Paul Cacioli 独立研究员 澳大利亚墨尔本 ORCID: 0009-0000-7054-2014 [email protected]

###### 摘要

我们介绍了一项基于 Nelson 和 Narens(1990)元认知框架、采用人类心理测量学方法评估 LLM 的跨域行为学测验,用于衡量 LLM 中的监测-控制耦合。该电池包含 524 个项目,跨越六个认知领域(学习、元认知校准、社交认知、注意力、执行功能、前瞻性调节),每个领域都基于既定的实验范式。任务 T1-T5 在数据收集前已在 OSF 上预注册;T6 作为探索性扩展。在每个强制选择回应后,改编自 Koriat 和 Goldsmith(1996)的双重探针要求模型 KEEP(保留)或 WITHDRAW(撤回)答案并 BET(下注)或拒绝。关键指标是撤回差值:不正确和正确项目的撤回率差异。应用于 20 个前沿 LLM(10,480 次评估),该电池区分出三个配置文件,与 Nelson-Narens 架构一致:无差别信心、无差别撤回和选择性敏感性。准确率排名和元认知敏感性排名基本相反。回顾性监测和前瞻性调节似乎可分离(r=.17,95% CI 宽,n=20;以范例为基础的证据是主要支持)。元认知校准的缩放取决于架构:单调递减(Qwen)、单调递增(GPT-5.4)或持平(Gemma)。行为学发现在结构上与独立的 Type-2 SDT 方法汇聚,提供初步的跨方法构效度。所有项目、数据和代码:https://github.com/synthiumjp/metacognitive-monitoring-battery

## 1 引言

### 1.1 LLM 评估中的元认知差距

当语言模型回答事实性问题时,两种能力决定了可靠性:产生正确答案的能力,以及监测该答案是否正确的能力。这两个不同的问题需要不同的干预。一个能产生正确答案但无法区分其正确和错误输出的模型对于选择性预测、人工智能协作或自主决策来说是不可靠的。一个产生较少正确答案但能准确标记错误的模型通常是更有用的系统。目前的评估实践没有做出这种区分。不存在用于量化 LLM 此类能力的标准化测量工具。

标准基准(MMLU、Hendrycks 等,2021;HumanEval、Chen 等,2021;BIG-Bench、Srivastava 等,2023)报告准确度、F1 或 pass@k。一个以 100% 信心正确回答的模型与一个能告诉你哪些具体答案可信的模型没有区别。这些基准测量对象层面的性能(模型知道什么),而不测量元层面的监测(模型是否知道它知道什么)。

这一差距开始得到关注。Steyvers 和 Peters(2025)使用 AUROC 和 meta-d′ 框架回顾了 LLM 元认知。Kadavath 等人(2022)表明语言模型可以区分它们正确回答的问题和没有正确回答的问题。Ackerman(2025)引入了两个行为范式(委托游戏和第二次机会游戏)来评估 LLM 内部信心信号的战略部署,发现了有限的、依赖于上下文的元认知证据。Dai(2026)将 meta-d′ 应用于口头表达的信心评级,表明量表设计(0-20 与标准 0-100)通过四舍五入数字离散化大幅影响元认知敏感性。这些工作集体确立 LLM 表现出类似于元认知监测的功能。然而,LLM 文献借用认知科学术语较为松散,没有应用赋予这些术语精确性的形式框架。据我们所知,没有之前的 LLM 基准明确将 Nelson 和 Narens(1990)监测-控制架构作为基准设计原则进行了操作化。

### 1.2 Nelson-Narens 监测-控制框架

Nelson 和 Narens(1990)提出认知系统运行在两个层级:执行任务的对象层和监测和控制它的元层。两个信息流连接它们:监测向上传递准确性信息;控制向下调整行为。关键洞察是监测和控制可以分离。一个系统可以监测而不控制(接收准确性信息但不调整行为)、控制而不监测(应用无差别政策而不区分正确和错误输出)或表现出耦合的监测-控制。这三方区分是基准的理论基础。Koriat 和 Goldsmith(1996)在实验上扩展了框架:在他们的自由报告范式中,参与者回答问题,然后决定是否提供或撤回每个答案,关键指标是自愿/撤回决定如何跟踪实际准确性。我们为 LLM 改编了这个范式。Nelson-Narens 进一步的区分是回顾性监测(事后准确性评估)和前瞻性调节(回应前策略调整);Metcalfe 和 Kornell(2005)证明了这些在人类中是可分离的。我们的电池测试两者。

### 1.3 双重探针方法

在 T1-T5 项目的每个强制选择回应后,管理两个探针:"KEEP 还是 WITHDRAW 这个答案?"和"BET 还是 NO_BET 你的答案正确?"这为每个项目产生四个回应-承诺状态,独立于任务评分进行分析。关键指标是撤回差值:不正确和正确项目的撤回率差异。正差值表示承诺决策区分了正确和错误;接近零的差值表示无差别政策。T6 使用不同的探针结构:在回答前,模型选择 ANSWER_DIRECTLY、REQUEST_HINT 或 DECLINE,操作化前瞻性调节。其中 meta-d′(Maniscalco & Lau,2012;Cacioli,2026b)衡量内部信号区分正确和错误的程度,撤回差值衡量模型的显性承诺决策如何做到——同一构念的方法论独立测量。

### 1.4 现有研究

元认知效率在人类中是特定领域的(Fleming 等,2014;Rouault 等,2018),因此单一领域测试无法表征系统的元认知能力。我们的电池跨越六个认知领域,每个领域都基于不同的实验范式。任务 T1-T5 各有自己的 OSF 预注册和(如有)配套的 arXiv 论文;T6 作为探索性黑客马拉松赛道扩展。我们评估了 20 个前沿 LLM(总共 10,480 次评估)。我们的贡献是:(1)方法论——一个标准化的测量工具,植根于形式理论(Nelson & Narens,1990;Koriat & Goldsmith,1996),与独立的 Type-2 SDT 方法具有汇聚效度(Cacioli,2026b);(2)三个配置文件分类法(无差别信心、无差别撤回、选择性敏感性),与 Nelson-Narens 耦合状态一致,配置文件在个别模型内跨领域碎片化;(3)回顾性监测和前瞻性调节之间的分离:两个测度相关性 r=.17(给定 n=20 CI 宽)并且对个别模型强烈分歧;(4)架构依赖的缩放排除了通用缩放律:在 T2 上,对于 Qwen 敏感性单调递减,对于 GPT-5.4 单调递增,对于 Gemma 保持持平。所有 T1-T5 分析在 OSF 上预注册;T6 作为探索性报告。所有项目、数据和代码已公开存档。

## 2 方法

### 2.1 基准设计原则

该电池设计遵循四个原则。首先,每个任务都基于具有既定实证文献的特定认知科学范式。其次,每个任务都包含诊断条件,将真正的能力与表面启发式分开。第三,五个预注册任务(T1-T5)各配有一份 OSF 预注册和(如有)一份 arXiv 配套论文;T6 作为探索性扩展。第四,每个项目都包含元认知探针,以实现跨域分析,这是该电池的主要贡献。

表 1:电池概览。六个任务,六个认知领域,共 524 个项目。†T6 在 Kaggle AGI 黑客马拉松 2026 中作为探索性扩展开发。所有项目、评分规则和分析规范都存档在 OSF 上。

### 2.2 任务描述

每个任务的代表性项目,包括完整的探针序列,见附录 A。

T1:学习(98 个项目)。Nonce 词汇世界测试二阶泛化(Kemp 等,2007)。从一阶检索到对抗性箔的八个条件。配套论文:Cacioli(2026c)。

T2:元认知(90 个项目)。信号检测论框架(Green & Swets,1966)。四个条件:校准(66 个项目)、前瞻性监测(8 个项目)、错误检测(8 个项目)、知识边界(8 个项目)。配套论文:Cacioli(2026a)。

T3:社交认知(116 个项目)。从基本相互排斥(Markman & Wachtel,1988)通过标量蕴涵、三阶假信念(Perner & Wimmer,1985)和讽刺的九个条件。配套论文:Cacioli(2026c)。

T4:注意力(60 个项目)。有偏竞争框架(Desimone & Duncan,1995)。六个条件测试竞争下的选择性注意力。

T5:执行功能(88 个项目)。三个条件通过幅度处理(Diamond,2013):格式灵活性(20 个项目)、抑制性控制(43 个项目)、任务转换(25 个项目)。比率分级遵循韦伯定律(Dehaene,2003)。配套论文:Cacioli(2026d)。

T6:前瞻性调节(72 个项目)。在回答前,模型选择 ANSWER_DIRECTLY(如果正确满分,错误零分)、REQUEST_HINT(提示下半分)或 DECLINE(四分之一分)。操作化 Metcalfe 和 Kornell(2005)的校准寻求帮助范式。回顾性探针随后进行。T6 应被解释为在显性收益偶然性下的前瞻性调节测验,而不是前瞻性元认知的综合测量。T6 在 Kaggle AGI 黑客马拉松 2026 中作为预注册电池的探索性扩展开发。所有项目、评分规则和分析规范都与五个预注册任务一起存档在 OSF 上。

### 2.3 探针方法

在 T1-T5 的每个强制选择答案后,管理两个探针。在 T6 上,前瞻性路径选择在回应前记录;回顾性探针随后进行。

回顾性监测的主要指标是撤回差值:

Δwithdraw = P(WITHDRAW|不正确) − P(WITHDRAW|正确)

前瞻性调节的主要指标是 ANSWER_DIRECTLY 率及其与准确性的关系。ANSWER_DIRECTLY 是 KEEP 决定的前瞻性类比:在没有外部支持的情况下提交答案的选择。在大多数项目上直接回答的模型表现出最少的前瞻性调节;在难度上改变路径选择的模型表现出 Metcalfe 和 Kornell(2005)在人类研究时间分配中观察到的调节行为。REQUEST_HINT 和 DECLINE 率在补充分析中报告,但不是主要指标,因为它们可能由泛化风险规避而不是校准的难度检测驱动。

### 2.4 模型

评估了来自六个提供商家族的 20 个前沿 LLM。选择使得家族内缩放比较成为可能:Qwen(80B、235B、480B)、GPT-5.4(nano、mini、5.4)、Gemma(1B、12B、27B),以及推理变体(DeepSeek R1 vs V3.2;Qwen Think vs Instruct)和提供商间的架构多样性:Zhipu AI(GLM-5)、Google(Gemini 3 Flash、2.5 Flash、3.1 Pro、2.5 Pro;Gemma 1B/12B/27B)、Anthropic(Opus 4.6、Sonnet 4.6、Haiku 4.5)、OpenAI(GPT-5.4、mini、nano)、Alibaba(Qwen 3 80B Think/Instruct、235B、Coder 480B)、DeepSeek(V3.2、R1)。

### 2.5 评估平台和程序

所有评估使用 Kaggle Benchmarks 平台(kbench SDK)。每个项目独立管理,无跨项目上下文。评分是任务特定的:T1、T3、T4、T5 的准确性;T2 的信心-准确性对齐;T6 的路径加权准确性。探针回应分别记录并独立分析。

### 2.6 配置文件分类

每个模型在每个赛道内被分类为三个配置文件之一:

- • **无差别信心**:KEEP 率 ≥ 95% 无论准确性如何。
- • **无差别撤回**:KEEP 率 ≤ 10% 无论准确性如何(T1-T5)或 DECLINE ≥ 90%(T6)。
- • **选择性敏感性**:撤回差值 ≥ +15%。

这些阈值是为可解释性选择的操作约定,不是关于自然聚类或理论特权截断的声明。95%/10%/15% 的值位于稳定性平台上:所有 20 个模型在这些阈值处获得相同分类,而偏移 ±5 个百分点会改变 9-10 个出 20。更宽阈值范围的鲁棒性在第 3.9 节报告。

### 2.7 分析计划

三个假设在涵盖 T1-T5 的五个 OSF 文件中预注册:

H1:没有单一模型支配所有六个领域。

H2:特定领域的失败配置文件是特定于模型的。

此外,我们描述性报告了哪些项目类型在模型之间进行区分(之前预注册为 H3)以及通过 T6 测试的探索性假设:

H4(探索性):回顾性监测和前瞻性调节是可分离的。

## 3 结果

### 3.1 总体性能

表 2 展示了准确性矩阵。总体准确性范围从 0.547(Gemma 1B)到 0.952(GLM-5)。H1 得到支持:没有单一模型在所有六个赛道上取得最高分。

表 2:六个任务中选定模型的准确性。完整的 20 模型表在 https://kaggle.com/benchmarks/jonpaulcacioli/classical-minds-modern-machines。T6 的范围最广(0.824)。R1 在 T2(0.489)和 T6(0.253)的分数表现为准确性失败但反映行为撤回而不是能力失败:R1 拒绝 98.6% 的 T6 项目并撤回 91-99% 的 T1-T5 项目。

### 3.2 三个元认知配置文件

本节中的所有值都是每个模型的单次管理点估计;配置文件分配应读作基于这些点估计的描述性分类,而不是由重测信度区间限制。探针数据揭示了三个配置文件,映射到 Nelson 和 Narens(1990)预测的监测-控制耦合状态。

#### 配置文件 A:无差别信心(与不控制的监测一致)

五个模型在所有六个赛道上表现出无差别信心为稳定配置文件:Gemini 3 Flash、Gemini 2.5 Flash、Gemini 2.5 Pro、Gemini 3.1 Pro 和 Qwen 80B Think。这些在 T1-T5 项目上响应 KEEP ≥ 95%,在 T6 项目上响应 ANSWER_DIRECTLY ≥ 97%,无论正确性如何。撤回差值接近零。

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。