前沿大语言模型中的领域级元认知监控:一份33个模型图谱

arXiv cs.CL 论文

摘要

本研究提出了一份涵盖33个模型的图谱,利用MMLU基准分析了前沿大语言模型中的领域级元认知监控,揭示了聚合指标所掩盖的不同知识领域中置信度校准的显著差异。

arXiv:2605.06673v1 公告类型:新发布 摘要:聚合元认知质量分数掩盖了模型在MMLU基准不同领域内的变化。我们对来自8个模型家族的33个前沿大语言模型进行了1500道MMLU题目测试(每个领域250道,基于预先设定的六大领域分组),并使用口头置信度(0-100)计算了每个模型-领域单元的二类受试者工作特征曲线下面积(Type-2 AUROC)。总观察次数为47,151次。所有在聚合监控方面表现优于随机水平的模型均显示出非微不足道的领域级变化。应用/专业知识领域始终是监控最容易的基准领域(平均AUROC = 0.742,在33个模型中有21个位列前二);形式推理和自然科学领域则始终是最难的(在33个模型中有27个位列后二)。中间三个领域在统计上无法区分(Kendall's W = 0.164)。主题层面的连贯性分析(领域内相似度比率 = 0.95)证实,这六大领域分组是一个实用的基准分类法,而非经过验证的潜在构念。在模型家族内部,Anthropic、Google-Gemini和Qwen的轮廓形状聚类具有显著性(置换p < 0.0001),而DeepSeek、Google-Gemma和OpenAI则不显著。Gemma 4 31B相比Gemma 3 27B的AUROC提升了0.202。在二进制KEEP/WITHDRAW探测中被归类为无效的三个模型,在口头置信度下表现出正常轮廓,证实了探测格式的特异性。198个单元的Bootstrap 95%置信区间中位宽度为0.199。聚合稳定性的折半信度r = 0.893;轮廓级别的折半信度较弱(总体中位数r = 0.184)。这些结果显示,稳定的基准领域差异被聚合指标所掩盖,并支持在特定应用区域部署前进行基准阶段领域筛选。
查看原文
查看缓存全文

缓存时间: 2026/05/11 06:39

# 前沿大语言模型中的领域级元认知监控:33个模型图谱

来源:https://arxiv.org/html/2605.06673
\(2026年4月\)

###### 摘要

聚合元认知质量分数掩盖了模型在MMLU基准各领域内的内部差异。我们向来自八个模型家族的33个前沿大语言模型(LLM)施测了1,500道MMLU题目(每个领域250道,基于预先设定的六个领域分组),并使用语言化信心(0–100)计算了每个模型-领域单元的二类AUROC(Type-2 AUROC)。总观察数为47,151个。所有具有高于随机水平聚合监控能力的模型均显示出非平凡的领域级差异。应用/专业知识是监控最容易的基准领域(平均AUROC = .742,在33个模型中的21个里排名前二)。形式推理和自然科学则是监控最困难的领域(分别为.658和.652;在这33个模型中的27个里,这两个领域之一占据了后两名)。三个中间领域(事实、社会、人文)在统计上无法区分(均值差异在.007以内;Kendall’s W = .164表明模型对极端领域达成共识,但对中间领域存在分歧)。科目层面的连贯性分析(领域内相似性比率 = 0.95)证实,这六个领域的分组是一种务实的基准分类法,而非经过验证的潜在构念。家族内图谱相似性在Google-Gemini中显著(r = .842, p = .035,针对排名最高的一对),但在Anthropic中不显著,尽管其四代模型的聚合质量保持一致(.708–.806),其图谱形状却各不相同。Gemma 4 31B相比Gemma 3 27B显示了+0.202的AUROC提升。三个在二进制KEEP/WITHDRAW探针中被分类为无效的模型\Cacioli,[2026a (https://arxiv.org/html/2605.06673#bib.bib4)\]在语言化信心下产生了正常图谱,证实了探针格式的特异性。GPT-oss-120B显示出最高的信心方差(SD = 21.3),但其监控能力接近随机水平(.530)。基于1,000次重采样的Bootstrap 95%置信区间(CI)在所有198个模型-领域单元上的中位宽度为.199,足以检测显著的图谱差异,但对于高准确率模型(34%的单元超过.25)中相邻领域的差异则不足以分辨。跨模型的半样本聚合稳定性为r = .893。这些结果表明,信心辨别力存在稳定的基准领域差异,而这种差异被聚合指标所掩盖,并支持在特定应用领域部署前进行基准阶段的领域筛选。

## 1 引言

### 1.1 聚合指标问题

LLM的信心信号越来越多地用于部署中的弃权、路由和安全关键升级\Wenet al.,[2025 (https://arxiv.org/html/2605.06673#bib.bib15)\]。标准评估通常报告所有项目的单一聚合指标,通常是AUROC或ECE。这种聚合假设元认知监控质量在各种认知需求下是均匀的。事实并非如此。

Cacioli \[2026f (https://arxiv.org/html/2605.06673#bib.bib3)\]报告称,在古典心智样本中,每个有效的模型(20个前沿LLM中的14个)尽管聚合AUROC在该子集中范围为.539至.717,但至少有一个认知领域的AUROC低于.55。Sonnet 4.6在Executive Function上得分.965,而在Prospective Regulation上得分.485。Claude Haiku 4.5在Social Cognition上得分.804,而在Attention上得分.466。这些领域级差异不会在聚合报告中显示,并带有直接的部署影响。为法律推理(模型监控良好)构建的基于信心的弃权系统,当应用于数学问题解决(同一模型监控较差)时可能会表现出不同的行为。

我们提出三个问题。第一,在具有足够统计效力的标准基准上,自定义测试集中观察到的领域级差异是否可复现?第二,这种差异是否具有结构,即在跨模型时存在一致地更容易或更难监控的领域?第三,训练家族内的模型是否共享领域级图谱形状?

### 1.2 先前工作

多条研究线索涉及LLM信心的可靠性。Steyvers和Peters \[2025 (https://arxiv.org/html/2605.06673#bib.bib14)\]回顾了LLM中的元认知和不确定性沟通。Xionget al.\[2023 (https://arxiv.org/html/2605.06673#bib.bib16)\]调查了信心激发方法并发现了普遍存在的过度自信。Kadavathet al.\[2022 (https://arxiv.org/html/2605.06673#bib.bib9)\]表明LLM有时能够区分它们回答正确的问题和回答不正确的问题。Cacioli \[2026d (https://arxiv.org/html/2605.06673#bib.bib1),c (https://arxiv.org/html/2605.06673#bib.bib2)\]应用信号检测理论将元认知效率与任务表现分解开来。Wuet al.\[2026 (https://arxiv.org/html/2605.06673#bib.bib13)\]引入了一种决策理论可靠性指标。所有研究都报告聚合指标。没有任何研究分析领域级差异。

另一条线索涉及有效性:Cacioli \[2026a (https://arxiv.org/html/2605.06673#bib.bib4)\]从PAI和MMPI-3有效性量表中推导出了LLM信心数据的六个有效性指标。Cacioli \[2026e (https://arxiv.org/html/2605.06673#bib.bib5)\]提取了一种便携式筛选协议,将模型分类为无效、不确定或有效。Cacioli \[2026b (https://arxiv.org/html/2605.06673#bib.bib6)\]表明该分类可以预测选择性预测性能(d=2.81, η²=.470)。我们将此框架从聚合筛选扩展到领域级画像:一旦知道信号有效,它在何处有效?

Haznitramaet al.\[2026 (https://arxiv.org/html/2605.06673#bib.bib17)\]在一套基于神经心理学的认知任务测试集中评估了LLM,但未分析这些领域间的元认知监控。更接近我们兴趣的是,Cacioli \[2026f (https://arxiv.org/html/2605.06673#bib.bib3)\](元认知监控电池)向20个前沿LLM施测了跨越六个认知轨道的524个项目,但使用的是二进制KEEP/WITHDRAW探针,且每个领域仅60–116个项目。本图谱在标准化基准(MMLU)上复现并扩展了该项工作,采用连续的语言化信心,每个领域250个项目,共33个模型。

最近的机制研究与此相关。Kumaranet al.\[2026 (https://arxiv.org/html/2605.06673#bib.bib11)\]表明,Gemma 3 27B中的语言化信心反映了从答案相邻位置的缓存检索,而不仅仅是即时计算,并且信心表征解释了超出令牌对数概率的方差。Kim \[2026 (https://arxiv.org/html/2605.06673#bib.bib10)\]在两个架构不同的模型中,在网络深度的61–69%处识别出一个元认知位置,其中隐藏状态方差在生成任何输出令牌之前区分已知问题和未知问题。这些发现指向某种形式的对答案质量的二阶评估,尽管它们本身并未建立强人类认知意义上的内省访问。我们要问的是,这种二阶信号的质量是否在MMLU领域区间中有所不同。

Cacioli \[2026g (https://arxiv.org/html/2605.06673#bib.bib7)\]表明,3-9B指令微调模型的语言化信心在最小激发下就会饱和(平均天花板率91.7%,所有七个模型均被分类为无效)。Miao和Ungar \[2026 (https://arxiv.org/html/2605.06673#bib.bib12)\]表明,校准和语言化信心在残差流中以正交方向编码。语言化信心并不自动值得信赖。我们使用聚合信号有效的前沿模型,并询问有效性在各个领域是否均匀分布。

### 1.3 一种程序类比,而非本体论类比

临床神经心理学评估遵循固定的解释顺序。首先检查有效性指标\Larrabee,[2012 (https://arxiv.org/html/2605.06673#bib.bib18)\]。如果有效,聚合分数(例如,WAIS-IV上的FSIQ)提供整体水平。然后解释图谱:指数级分数揭示了跨认知领域的相对优势和劣势。FSIQ为100的患者可能在言语理解和处理速度之间显示出20分的差异。这种差异是临床发现。聚合指标掩盖了它。

我们采用这种三步程序进行LLM信心评估:首先进行筛选\Cacioli,[2026e (https://arxiv.org/html/2605.06673#bib.bib5)\],计算聚合值,然后检查图谱。这种类比是程序性的。我们并不声称人类认知领域(基于几十年的因子分析验证)与此处使用的MMLU主题区间(§3.8指出其未经验证)之间存在等价关系。转移的是解释顺序,而非领域的构念地位。

### 1.4 贡献

1. 1. 一个涵盖33个模型、47,151个观察值的二类AUROC图谱,跨越六个MMLU领域区间,提供了迄今为止最大的LLM元认知监控标准化图谱数据集。
2. 2. 一个稳健的极值排序:应用/专业知识是监控最容易的基准领域;形式推理和自然科学是监控最困难的领域(Friedman χ²(5)=27.04, p<.0001; Kendall’s W=.164)。三个中间领域在统计上无法区分。
3. 3. 一项科目层面的连贯性分析,表明先验的领域分类法按务实的认知需求对MMLU主题进行分组,而非按经验上连贯的潜在结构——这是一个我们突出而非掩盖的构念效度局限性。
4. 4. 探索性的家族内图谱相似性分析:一个家族(Google-Gemini)显示出显著的家族内图谱形状相关性,而其他家族则没有。
5. 5. 描述性的代际轨迹,显示从Gemma 3到Gemma 4的+0.202 AUROC提升,以及Anthropic 4.5–4.7的 plateau。
6. 6. 探针格式特异性:三个在二进制KEEP/WITHDRAW探针下被分类为无效的模型\Cacioli,[2026a (https://arxiv.org/html/2605.06673#bib.bib4),e (https://arxiv.org/html/2605.06673#bib.bib5)\]在语言化信心下产生有效图谱,证实有效性是模型-探针-任务交互的属性,而非模型的内在属性。
7. 7. 公共排行榜、项目级数据(47,151个观察值)、分析代码以及所有198个模型-领域单元的Bootstrap CI。

### 1.5 范围及本文非此

这是一份基准条件下的图谱差异图谱,而非经过验证的潜在元认知领域地图。本文仅提出三项主张,不多不少。第一,模型内的领域差异显著且被聚合AUROC所掩盖。第二,应用/专业知识是监控最容易的MMLU领域区间,形式/科学是监控最困难的。第三,二进制KEEP/WITHDRAW与语言化0-100的比较表明有效性依赖于格式。

我们并不声称这六个领域构成了LLM的经验证认知分类法(§3.8表明它们并非如此)。我们并未声称应用-形式差距存在因果机制(§4.1提出候选假设)。我们并未声称基准AUROC可以直接转化为部署可靠性而无需进一步的领域特定评估(§4.6)。读者应将图谱解释为基准阶段的筛选工具,而非部署认证。

## 2 方法

### 2.1 模型

来自八个家族的33个前沿LLM,通过Kaggle Benchmarks平台施测(2026年3月至4月)。模型涵盖四个Anthropic代际、三个DeepSeek版本、七个Google-Gemini模型、五个Gemma模型、五个OpenAI模型、四个Qwen模型以及GLM-5。所有调用均使用贪婪解码(温度0)和每个项目独立的对话上下文。带有规范ID的完整模型列表位于仓库的data/README.md中。

### 2.2 基础

来自MMLU\Hendryckset al.,[2021 (https://arxiv.org/html/2605.06673#bib.bib8)\]的1,500个项目,分层跨越六个认知领域(每个领域250个项目)。项目通过HuggingFace datasets库从测试集中确定性抽取(种子= 42)。

### 2.3 领域映射

我们将57个MMLU主题中的56个先验映射到六个认知领域区间中(表1 (https://arxiv.org/html/2605.06673#S2.T1)\)。一个主题(elementary\_mathematics,173个项目)因在形式推理和应用算术之间模糊而被排除。这种映射是按表面认知需求的务实分组,而非经过验证的潜在分类法;连贯性分析见§3.8。

表1:MMLU到领域的映射(部分)。完整映射见仓库笔记本。
### 2.4 激发

每个项目都以固定模板呈现给模型,要求回答字母(A/B/C/D)和语言化信心(0–100)。提示中不包含思维链线索。指示模型在回答的同时做出信心判断。完整提示模板见仓库笔记本。

### 2.5 分析

使用sklearn.metrics.roc\_auc\_score计算每个模型和每个模型-领域单元的二类AUROC(信心预测正确性)。对于全对或全错的项目单元(罕见,仅在某些高准确率项目上的Gemma 3 1B中出现),AUROC未定义;这些单元被标记并从聚合统计中排除,而非插补。使用1,000次重采样计算Bootstrap 95% CI(种子= 42)。

便携式筛选协议\Cacioli,[2026e (https://arxiv.org/html/2605.06673#bib.bib5)\]应用于每个模型的聚合数据。所有33个模型在聚合筛选中被分类为有效或以上,保留用于领域级分析;在此阶段没有模型被筛选排除。

## 3 结果

### 3.1 模型覆盖率和精度

33个模型产生了47,151个观察值(每个模型598–1,500个项目)。准确率范围从.388(Gemma 3 1B)到.951(Opus 4.6, Gemini 3 Flash)。信心SD范围从3.3(Gemma 3 12B)到21.3(GPT-oss-120B)。聚合AUROC范围从.498(Gemma 3 1B, 随机)到.806(Opus 4.6)。

对所有198个模型-领域单元计算了Bootstrap 95% CI(1,000次重采样,种子= 42)。CI中位宽度为.199。198个单元中的100个(51%)CI宽度低于.20。68个单元(34%)CI宽度超过.25,集中在每领域错误较少的高准确率模型中。所有198个单元均产生了可计算的AUROC。由于每个领域的样本量较大(250个项目)和连续的信心量表,CI宽度相比古典心智电池(每个领域60–116个项目的CI中位宽度.275)有了实质性改进。

### 3.2 领域级图谱矩阵

表2 (https://arxiv.org/html/2605.06673#S3.T2)报告了所有33个模型的每个模型-领域单元的二类AUROC,按家族和聚合AUROC排序。图1 (https://arxiv.org/html/2605.06673#S3.F1)将同一矩阵可视化为带有家族分隔线的热力图。该矩阵也作为data/atlas\_summary\_matrix.csv存档在仓库中。

表2:所有33个模型的每个模型-领域单元的二类AUROC。聚合列是1,500个项目内的模型内总AUROC。列nn= 完成的项目数。模型按家族分组,按家族内的聚合AUROC排序。参见图注
图1:按模型(行)和MMLU领域区间(列)的二类AUROC。色标围绕随机水平(.50)发散。家族分隔线为水平黑线。n=47,151个观察值跨越33个模型。
### 3.3 领域难度层级

应用/专业知识是最容易监控的领域。形式推理和自然科学是最困难的。这一排序得到Friedman检验的支持(χ²(5)=27.04, p<.0001)以及收敛的基于秩的证据(表3 (https://arxiv.org/html/2605.06673#S3.T3), 图2

相似文章

元认知监测电池:LLM自我监测的跨域基准

arXiv cs.CL

一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。

LLMs 未显示出个体化元认知迹象

arXiv cs.LG

本文研究了前沿大语言模型是否表现出个体化元认知——即超越共享信号评估自身项目级别能力的能力。通过对20个模型和六个基准进行因子分析和成对校准,作者未发现此类元认知的证据;置信度差异归结为一个单一的共享难度因子,表明模型依赖于共同的难度信号而非模型特定的自我认知。