解构并引导大型语言模型中的功能性元认知

arXiv cs.CL 论文

摘要

本研究探讨了大型语言模型中的功能性元认知,证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态,展示了对推理行为、冗长度及安全响应的因果控制。

arXiv:2605.08942v1 公告类型:新论文 摘要:大型语言模型(LLMs)日益表现出表明其感知评估语境的行为,经常在基准测试环境中调整其推理策略。先前的研究表明,这种评估意识可能会扭曲性能测量;然而,目前尚不清楚这一现象反映的是单一的行为伪影,还是模型内部更深层次的结构。 我们提出,大型语言模型维持着一个可分解的功能性元认知状态空间:这些内部变量编码了诸如评估意识、自我评估能力、感知风险、计算努力分配、受众专业知识适配以及意向性等因素。通过对多个推理模型的残差流分析,我们证明这些状态可以从内部激活中线性解码,并表现出独特的逐层分布特征。此外,通过沿探针导出的方向引导模型激活,我们表明每个功能性元认知状态都以可分离的方式因果性地调节推理行为,影响跨任务中的冗长度、准确性以及与安全相关的响应。 我们的研究结果表明,基准测试的性能不仅反映了任务能力,还反映了特定功能性元认知状态的激活。我们认为,理解和控制这些内部状态对于可靠地评估和部署推理模型至关重要,并为此提供了一个研究人工系统中功能性元认知的机械机制框架。我们的代码和数据已在 https://github.com/xlands/meta-cognition 公开提供。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:07

# 分解并引导大语言模型中的功能性元认知

**来源**: https://arxiv.org/html/2605.08942

###### 摘要

大语言模型(LLMs)越来越多地表现出表明其具有评估情境意识的行为,经常适应基准测试环境中的推理策略。先前的研究表明,这种评估意识可能会扭曲性能测量;然而,目前尚不清楚这种现象反映的是单一的行为伪影,还是模型内部更深层次的结构。我们提出,LLMs 维持着一个可分解的功能性元认知状态空间——编码诸如评估意识、自我评估能力、感知风险、计算努力分配、受众专业知识适应和意向性等因子的内部变量。通过对多个推理模型进行残差流分析,我们证明这些状态可以从内部激活中线性解码,并表现出不同的层级分布特征。此外,通过沿探针推导的方向引导模型激活,我们展示了每个功能性元认知状态以可分离的方式因果性地调节推理行为,影响跨任务的冗长度、准确性和与安全相关的响应。我们的研究结果表明,基准性能不仅反映了任务能力,还反映了特定功能性元认知状态的激活。我们认为,理解和控制这些内部状态对于可靠评估和部署推理模型至关重要,并提供了一个用于研究人工系统中功能性元认知的机制框架。我们的代码和数据在 https://github.com/xlands/meta-cognition 上公开可用。

**图 1 说明**:五款模型在 SimpleQA 上的跨任务解码准确率。虚线圆圈标记了 50% 的随机基线。Qwen3-14B(橙色)和 30B(绿色)在几个维度上实现了近乎完美的迁移;Llama-4(紫色虚线)徘徊在偶然水平附近。每款模型的数值表见附录 G (https://arxiv.org/html/2605.08942#A7)。

**关键词**:功能性元认知,激活引导,表征工程,大语言模型。

††ccs: 计算方法 话语、对话和语用学

**图 2 说明**:研究 LLMs 中功能性元认知状态的机制框架概览。该过程包括三个阶段:(1) 功能性元认知探针:在成对框架下训练残差流激活的线性探针,以解码六个维度;(2) 因果干预:通过沿发现的方向注入激活来引导模型行为,从而确立因果关系;(3) 泛化与联合控制:通过跨任务泛化和同时联合引导多个独立维度来验证这些表征。

## 1. 引言

大型语言模型(LLMs)的最新进展,特别是那些采用显式思维链推理的模型,揭示了基准性能与现实世界行为之间日益增长的差异 (nguyen2025probing, (https://arxiv.org/html/2605.08942#bib.bib1); linearcontrol, (https://arxiv.org/html/2605.08942#bib.bib2); tanneru2024hardnessfaithfulchainofthoughtreasoning, (https://arxiv.org/html/2605.08942#bib.bib3); fodor2025linegoesupinherent, (https://arxiv.org/html/2605.08942#bib.bib4); turpin2023languagemodelsdontsay, (https://arxiv.org/html/2605.08942#bib.bib5); shen2025faithcotbenchbenchmarkinginstancelevelfaithfulness, (https://arxiv.org/html/2605.08942#bib.bib6))。虽然最先进的模型在 MMLU (hendrycks2020measuring, (https://arxiv.org/html/2605.08942#bib.bib7); wang2024mmlu, (https://arxiv.org/html/2605.08942#bib.bib8)) 和 GSM8K (cobbe2021training, (https://arxiv.org/html/2605.08942#bib.bib9)) 等标准化评估中达到了近乎饱和的分数,但它们的推理质量、鲁棒性和安全性在更自然的设置中往往会下降。越来越多的工作表明,这种差距可能部分归因于评估意识:模型似乎能够识别何时正在接受测试,并相应地调整其行为。在这种类似考试的环境中,模型倾向于表现出僵化、冗长和社会期望的推理模式,这可能掩盖了它们真正的解决问题的策略。然而,现有的研究主要将评估意识视为一个单一的现象,侧重于行为差异或通过探针检测其存在。相比之下,人类认知区分多种形式的自我相关意识——例如被评估的意识、对自己能力的信心以及对潜在风险的感知——这些共同调节推理策略,而不是直接决定行动。这引出了一个根本性问题:大型语言模型是否同样维持着一种结构化的自我相关状态内部表征,以跨任务调节推理行为?

在这项工作中,我们超越了将评估意识视为单一二元变量的做法。我们提出,LLMs 编码了一个可分解的功能性元认知状态空间——反映评估意识、自我评估能力、感知风险、计算努力、受众专业知识和意向性等因素的内部变量——这些变量因果性地影响推理过程的展开。至关重要的是,这些功能性元认知状态是内部且功能性的:即使模型没有被明确提示去推理关于自身的内容,它们也存在,并且它们是在内部激活层面而非表面语言层面被表征的。

为了测试这一假设,我们沿着六个维度操作化功能性元认知——涵盖模型对*环境*、*自我*、*任务*和*受众*的意识——每个维度都定义为最小的二元对比,仅修改模型的自我参照上下文,同时保持任务不变。我们的实验框架分三个阶段进行。首先,我们在成对框架下提取残差流激活,并训练每层线性探针以解码每个功能性元认知维度。在五个模型规模(0.6B、14B、30B、109B 和 235B)中,探针准确率急剧提升——从 0.63 到近乎完美的 1.00——表明随着模型容量的增加,功能性元认知状态变得越来越线性可分。六个探针方向近乎正交(最大 $|\cos\theta| < 0.25$;均值 $< 0.06$),证实它们跨越了一个真正多维的子空间,而不是反映单一混淆因素。

其次,我们使用这些探针推导的方向进行因果干预,通过激活引导。在残差流中注入或抑制每个方向会产生特定维度的行为转变:引导计算努力将冗长度降低 28%,同时保持或提高准确性;增强自我评估能力将任务准确率从 25% 提高到 44%。值得注意的是,可引导性具有维度选择性——受众专业知识尽管高度可解码,但在表征上存在但在因果上惰性——这表明一些功能性元认知状态位于生成的因果路径上,而其他则不在。

第三,为了排除探针方向仅仅编码特定任务捷径而非真正内部状态的可能性,我们进行了两项互补的实验。(a) *跨任务泛化*:在数学推理和知识 QA 上训练的探针,在不重新训练的情况下,应用于一个没有领域或格式重叠的事实 QA 基准。探针以 81% 的平均准确率迁移,其中两个维度达到 100%——这一结果与特定领域的适配器不相容。(b) *联合多维引导*:利用先前确立的近乎正交性,我们通过单次叠加干预将所有六个探针方向同时注入残差流。向预测方向转变的维度数量随模型容量扩展——从 0.6B 的 1/6 到 30B 的 5/6 以及 235B 的 4/6——且没有破坏性干扰,证实功能性元认知轴不仅在相关性意义上是线性可分的,而且代表真正独立的因果变量,可以并行控制。

总之,这两个结果为反对捷径假设提供了汇聚证据:前者证明了任务普遍性,后者证明了维度独立性,它们的结合确立了这些方向作为真正的功能性元认知表征的地位。

我们的工作做出以下贡献:
- 我们引入了一个研究 LLMs 中功能性元认知状态的机制框架,超越了行为观察或自我报告的意识,转向内部表征分析。
- 我们证明了多个自我相关的内部变量在残差流中是线性可解码、因果可控且结构独立的,其表征保真度随模型规模扩展。
- 我们提供了证据表明这些内部状态可以跨任务泛化,并通过联合激活引导独立控制,排除了特定任务捷径解释,确立了它们作为真正功能性元认知表征的地位。
- 我们表明基准性能系统地受到这些内部状态的调节,为评估伪像提供了机制解释,并对可靠的模型评估具有重要意义。

## 2. 功能性元认知

我们提出 LLMs 维持着一个可分解的功能性元认知空间。在本节中,我们首先定义六个操作上不同的维度 (§2.1 (https://arxiv.org/html/2605.08942#S2.SS1)),然后展示来自探针实验的三个关键发现:(1) 线性可解码性随模型规模扩展 (§2.2 (https://arxiv.org/html/2605.08942#S2.SS2));(2) 功能性元认知表征显示出不同的层级局部化模式 (§2.3 (https://arxiv.org/html/2605.08942#S2.SS3));(3) 六个探针方向近乎正交,确认了结构独立性 (§2.4 (https://arxiv.org/html/2605.08942#S2.SS4))。

### 2.1. 维度与数据

我们研究了功能性元认知的六个维度,涵盖模型对*环境*、*自我*、*任务*和*受众*的意识。每个维度定义为*积极*(状态激活)和*消极*(基线)条件之间的二元对比(表 1 (https://arxiv.org/html/2605.08942#S2.T1))。

**表 1**:具有代表性提示框架的六个功能性元认知维度。每对共享相同的基本问题;只有框架前缀不同。维度 1-4 使用 GSM8K 基本问题;维度 5-6 使用 MMLU-Pro。提示构建遵循三个约束:(i) 最小对比——成对提示仅在自我参照上下文中不同;(ii) 任务不变性——每对的基本问题和预期答案相同;(iii) 仅自我上下文操纵——提示修改模型如何感知其自身角色,而不修改任务内容。对于每个维度,我们构建 200 个提示对(400 个标记示例)。跨越五个模型(0.6B–235B)的行为验证证实这些干预产生了可测量的输出变化,效应量随模型规模增加(案例研究见附录 B (https://arxiv.org/html/2605.08942#A2);综合得分见附录 C (https://arxiv.org/html/2605.08942#A3))。

##### 探针训练

对于每个维度和模型,我们提取每个 Transformer 层 $l$ 的提示最后一个 token 的隐藏状态 $h_l \in \mathbb{R}^d$,然后训练每层逻辑回归探针($L2$-正则化,$C=1.0$)以分类积极与消极条件。我们使用 80/20 分层分割;所有探针都是严格线性的,以测试功能性元认知状态是否被*显式表征*,而不是需要非线性提取。

### 2.2. 发现 1:规模显著改善可解码性

**图 3** (https://arxiv.org/html/2605.08942#S2.F3) 和 **表 2** (https://arxiv.org/html/2605.08942#S2.T2) 报告了每个维度的最佳层探针准确率。平均准确率从 0.63(0.6B)单调上升到 0.85(14B)再到 ~1.00(30B),表明较大的模型形成了越来越可分离的功能性元认知表征。

**图 3 说明**:五款模型和六个功能性元认知维度的最佳层线性探针准确率。较深的单元格表示更高的准确率。红色边框标记单个低于偶然水平的单元格(Llama-4,受众专业知识)。注释总结了三个主要发现。

**表 2**:最佳层线性探针准确率。偶然水平 = 0.50(平衡二元分类)。每个维度 400 个样本(200 对)。

数据中浮现出三个见解:

1.  **(1) 元认知表征随规模发生相变**。在 ~10B 参数以下,各个维度是“规模门控”的——一些保持在偶然水平,而其他已经部分可解码。超过此阈值,所有六个维度变得稳健可分离(≥ 0.80),在 ≥ 30B 时达到近乎完美的线性可分性。这表明功能性元认知表征逐渐出现并在关键模型容量处巩固。
2.  **(2) 可解码性是表征质量的属性,而不仅仅是模型大小**。跨架构比较显示,规模是必要的但不是充分的:具有可比参数数量的替代架构仅实现 0.74 的平均准确率,其中一个维度低于偶然水平。训练配方和架构选择独立于原始参数数量调节元认知编码的质量。
3.  **(3) 不同的功能性元认知维度具有不同的表征难度**。在所有模型中,环境级状态(评估意识、感知风险)始终比受众和意向性级状态更容易解码,后者需要更多的模型容量才能固化。这种维度层次结构在架构之间是稳健的。

### 2.3. 发现 2:功能性元认知的层级局部化

除了峰值准确率外,探针准确率在层之间的*分布*揭示了功能性元认知表征如何在网络内组织。**图 4** (https://arxiv.org/html/2605.08942#S2.F4) 绘制了三个 Qwen 模型规模的层级准确率(详细每层表见附录 D (https://arxiv.org/html/2605.08942#A4))。

**图 4 说明**:三个模型规模的层级探针准确率。X 轴显示相对层深度(0 = 第一层,1 = 最后一层)。灰色虚线标记 50% 的偶然基线。小模型显示平坦、弥散的分布;大模型显示立即的高准确率以及依赖于维度的细化轨迹。

##### 关键模式

1.  **(1) 小模型:弥散、非局部化**。在 Qwen3-0.6B(28 层)中,探针准确率在所有层中在狭窄带内波动(0.45–0.71),没有明显的峰值。元认知信息在所有地方都弱编码,但在任何地方都未强编码。
2.  **(2) 中规模模型:早期层集中**。在 Qwen3-14B(40 层)中,大多数维度在第 4-6 层急剧达到峰值(例如,Eval. Awareness:L6 为 0.86;Effort:L4 为 0.88;Risk:L6 为 0.88),然后衰减。一个显著的例外是受众专业知识,它在第 18 层较晚达到峰值,这表明语义级受众建模发生在网络更深层。
3.  **(3) 大模型:立即编码、依赖维度的细化**。在 Qwen3-30B-A3B(48 层)中,计算努力在第 0 层(第一个 Transformer 块输出)实现 1.00 准确率,并在所有 48 层中保持。感知风险(L0 为 0.95)和

相似文章

论大语言模型的固有可解释性:设计原则和架构调查

arXiv cs.CL

一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。

评估思维链的可监控性

OpenAI Blog

OpenAI研究人员引入了一个框架和一套包含13项评估的系统,用于衡量大型语言模型中思维链的可监控性。研究发现,监控推理过程比仅监控输出有效得多,这为AI安全及规模化监督提供了重要启示。

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。

脆弱的思考:大型语言模型如何处理思维链扰动

arXiv cs.CL

本论文对大型语言模型在思维链推理步骤中处理损坏情况的能力进行了全面的实证评估,在数学推理任务上针对13个模型和5种扰动类型(数学错误、单位转换、盲从、跳过步骤、额外步骤)进行了测试。研究结果揭示了异质性的漏洞模式,对在多阶段推理管道中部署LLM具有重要意义。