LLMs 能内省吗?现实检验

arXiv cs.AI 论文

摘要

本文认为,近期关于LLMs内省能力的说法并不成立,因为仅凭行为证据无法区分真正的内省与基于表面线索的模式匹配。作者重新审视了两种评估范式,发现模型依赖于输入层特征,而非真正访问内部状态。

arXiv:2605.26242v1 公告类型:新 摘要:大型语言模型能否检测并报告自身内部状态?多项研究认为答案是肯定的。我们基于人类元认知研究的经验提出,这一结论可能为时过早:要确信这一结论,我们需要区分真正的内省与基于表面线索的模式匹配。此外,我们认为仅凭行为证据本身不足以建立强有力的内省主张。 基于这一考虑,我们重新审视了两种近期引入的评估范式。在第一种范式中,模型需要检测其内部状态是否被篡改。我们发现,模型无法可靠地区分对其内部状态的此类干预与对输入的操纵,这表明它们在原始研究中的成功反映的是其更通用的异常检测能力,而非特别针对内部状态的干预。在我们检验的第二种范式中,模型需要预测源自自身隐藏状态的标签。我们发现,仅能访问输入的分类器实现了与模型自身上下文预测相当的性能,这表明原始结果并未最终证明模型对其内部表示具有特权访问。我们进一步引入了一个重新标记的控制设置,在此设置中,模型无法依赖任务语义来解决问题,而必须依赖内部表示;在这一控制更严格的版本中,模型表现更接近随机水平。综合来看,这些结果表明,现有证据不足以证明LLMs表现出元认知监控。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:02

# 大型语言模型能否内省?现实检验  
来源:https://arxiv.org/html/2605.26242  

Shashwat Singh, Tal Linzen, Shauli Ravfogel  
数据科学中心,纽约大学  
\{ss20428,linzen,shauli\.ravfogel\}@nyu\.edu  

###### 摘要  

大型语言模型能否检测并报告其自身内部状态?大量研究声称答案是肯定的。我们基于人类元认知研究的教训认为,这一结论可能为时过早:要相信这一结论,我们需要区分真正的内省与基于表面线索的模式匹配。此外,我们认为仅凭行为证据本身不足以确立强烈的内省主张。我们根据这一考虑重新审视了最近引入的两种评估范式。在第一种范式中,模型需要检测其内部状态是否被篡改。我们发现,模型无法可靠地区分对其内部状态的干预与对输入的操作,这表明它们在原始研究中的成功反映的是它们检测异常的一般能力,而非专门针对内部状态的干预。在第二种范式中,模型被要求预测从其自身隐藏状态中衍生出的标签。我们发现,仅能访问输入的分类器即可达到与模型自身上下文内预测相当的性能,这表明原始结果并未确凿证明模型对其内部表征拥有特权访问。我们进一步引入一个重新标记的对照设置,其中模型无法依赖任务的语义来解决问题,而必须依赖内部表征;在这一控制更严格的版本中,模型的表现接近随机水平。综合这些结果,目前的证据不足以证明大型语言模型具备元认知监控能力。  

## 1 引言  

大型语言模型能否反思自身的内部过程?随着 LLM 规模与能力的增长,近期大量研究开始探讨这些系统是否不仅具备完成复杂行为的能力,还能*内省*它们是如何完成这些行为的——即它们能否监控、报告并调节自身的内部状态,在人类认知科学中这些能力被称为元认知(Nisbett and Wilson, 1977 (https://arxiv.org/html/2605.26242#bib.bib19); Flavell, 1979 (https://arxiv.org/html/2605.26242#bib.bib20); Nelson, 1990 (https://arxiv.org/html/2605.26242#bib.bib21))。近期多项研究对这一问题的回答是肯定的。我们重新审视了其中一些研究,并认为当前证据并不足以证明这些结论,原因有两个不同层面:*经验*层面——现有范式未能排除简单的输入驱动解释;以及更根本的*原则*层面——即便这些混淆因素得以解决,当前构想的范式原则上也无法确立我们下文所述的“强”内省概念,这一概念借鉴自认知科学与哲学文献。受人类元认知研究长期成果(这些研究大多得出否定结论,并识别出多种混淆因素,使自我报告研究复杂化,Fleming and Lau, 2014 (https://arxiv.org/html/2605.26242#bib.bib22))的启发,我们强调将*真正的内省*——依赖于超越输入本身所提供的内部状态信息的推理——与*输入驱动的模式匹配*(模型利用提示的表面特征来预测自身行为)区分开来的挑战(Shanahan et al., 2023 (https://arxiv.org/html/2605.26242#bib.bib11); Turpin et al., 2023 (https://arxiv.org/html/2605.26242#bib.bib12))。我们认为,被认为证明 LLM 元认知监控的两种突出范式恰恰容易受到这一混淆因素的影响(第 5 节 (https://arxiv.org/html/2605.26242#S5))。我们将当前工作视为对近期刻画 LLM 自我认知努力的建设性补充,而非否定:我们批判的范式是重要且动机充分的,但需要加以改进以解决这些可能的混淆因素。  

我们重新审视的第一类工作报告称,模型能够解决标签由模型自身激活衍生的上下文学习(ICL)任务(Ji-An et al., 2025 (https://arxiv.org/html/2605.26242#bib.bib8); Steinmetz Yalon et al., 2026 (https://arxiv.org/html/2605.26242#bib.bib10)),这一范式类比神经科学相关设计被称为“生物反馈”。但我们的论点是,标签源于模型隐藏状态这一事实并不能排除它们同样容易从*输入*特征中预测的可能性。我们表明,Steinmetz Yalon 等人(2026 (https://arxiv.org/html/2605.26242#bib.bib10))的*信念主导*指标——该指标捕捉模型是遵从上下文反证还是坚持参数化知识——所追踪的关键变量在很大程度上可以从实体的输入特征中预测,甚至无需任何内省访问(第 5.2 节 (https://arxiv.org/html/2605.26242#S5.SS2))。我们进一步证明,对探测器的输出进行重新标记后,模型的表现下降到随机水平,这表明模型执行的是底层语义任务的上下文学习,而非监控自身的内部激活。  

我们研究的第二种范式源自一篇吸引广泛关注的论文(Lindsey, 2025 (https://arxiv.org/html/2605.26242#bib.bib23));该论文表明 Anthropic 的 Claude 模型能够以不可忽视的准确率检测其激活是否通过引导(即将代表特定概念的向量添加到模型激活中;Li et al. 2023 (https://arxiv.org/html/2605.26242#bib.bib27); Singh et al. 2024 (https://arxiv.org/html/2605.26242#bib.bib28))而修改。我们表明,LLM 在此任务上高于随机水平的准确率可能反映的是它们检测输入中任何*异常*的能力,而非对其自身隐藏状态的真正检查(图 1 (https://arxiv.org/html/2605.26242#S1.F1),右侧)。在一个修改过的设计(第 5.3 节 (https://arxiv.org/html/2605.26242#S5.SS3))中,我们将原始的*激活*层面干预和*对照*情况与*输入*层面干预相结合,三个开放权重的模型¹¹我们无法直接复制该论文,因为 Lindsey(2025 (https://arxiv.org/html/2605.26242#bib.bib23))测试的模型在 Anthropic 外部不可访问。未能可靠地区分输入层面与激活层面的干预,这使得它们对其自身内部状态敏感的解释变得复杂。  

关于图注:图 1:针对所谓内省结果的输入对照替代方案。左侧:在 Ji-An 等人(2025 (https://arxiv.org/html/2605.26242#bib.bib8))的生物反馈范式中,标签通过线性分类器或前 PCA 方向从模型的隐藏状态计算得出(A),然后作为上下文学习示例中的目标(B)。成功预测被解释为内省的证据。我们表明这些标签也可以从无上下文的输入嵌入中预测,因此成功未必意味着特权访问。右侧:在 Lindsey(2025 (https://arxiv.org/html/2605.26242#bib.bib23))的引导感知设定中,异常检测假设与内省假设做出相同预测且相互混淆。我们的设计增加了与隐藏状态干预相匹配的提示干预(“煤气灯”条件),从而分离假设:异常检测将两者都标记为异常,而内省则选择性地识别隐藏状态干预。  

超越这些经验差距,我们认为近期范式中隐含的证据门槛低于提出强烈内省主张所需的标准。现有范式旨在建立*特权自我访问*(Binder et al., 2024 (https://arxiv.org/html/2605.26242#bib.bib24); Song et al., 2025 (https://arxiv.org/html/2605.26242#bib.bib25))——即证明标签包含无法从输入中恢复的信息。但特权访问只是强意义上内省的必要条件,而非充分条件。语言模型中的每项计算都是通过隐藏状态执行的,因此标签依赖于隐藏状态属性的任务不一定涉及任何不同于常规前向传播计算的特有机制;使这些任务看起来内省的不对称性在于观察者一方,而非模型一方。与此相对,我们认为内省应被恰当地理解为一种与一阶处理可分离的*二阶*过程。正如我们在第 4 节 (https://arxiv.org/html/2605.26242#S4) 中所讨论的,确立内省需要行为范式本身无法提供的机制性证据(关于这一方向的初步探索,参见 Macar et al. 2026 (https://arxiv.org/html/2605.26242#bib.bib43))。总之,我们得出结论,当前证据不足以证明 LLM 展现出强烈的元认知监控,并认为未来研究可通过引入更强的对照,以及关键在于将行为结果与可分离的二阶过程的机制性证据相结合,从而使结论更具说服力。  

## 2 相关工作  

关于 LLM 是否具备元认知能力的问题已从多个角度展开研究。一类工作研究*口头校准*,询问模型是否对其答案表达出良好校准的不确定性(Kadavath et al., 2022 (https://arxiv.org/html/2605.26242#bib.bib1); Lin et al., 2022 (https://arxiv.org/html/2605.26242#bib.bib2); Yona et al., 2024 (https://arxiv.org/html/2605.26242#bib.bib3))。第二类采用*基于探测的方法*,从隐藏状态中提取置信度或真实性内部表征(Burns et al., 2023 (https://arxiv.org/html/2605.26242#bib.bib4); Marks and Tegmark, 2024 (https://arxiv.org/html/2605.26242#bib.bib5); Azaria and Mitchell, 2023 (https://arxiv.org/html/2605.26242#bib.bib6); Liu et al., 2023 (https://arxiv.org/html/2605.26242#bib.bib7); Slobodkin et al., 2023 (https://arxiv.org/html/2605.26242#bib.bib18); Ravfogel et al., 2025 (https://arxiv.org/html/2605.26242#bib.bib17))。第三类采用*神经科学启发的范式*,评估来自认知理论意识指标(Butlin et al., 2023 (https://arxiv.org/html/2605.26242#bib.bib9); Steinmetz Yalon et al., 2026 (https://arxiv.org/html/2605.26242#bib.bib10))或测试模型能否报告自身激活模式(Ji-An et al., 2025 (https://arxiv.org/html/2605.26242#bib.bib8))。  

人类元认知文献充满了否定结果,为解读 LLM 元认知工作提供了关键背景。Nisbett 和 Wilson(1977 (https://arxiv.org/html/2605.26242#bib.bib19))表明,人类常将自己的行为归因于源于无关原因的虚构解释。Koriat(1997 (https://arxiv.org/html/2605.26242#bib.bib26))证明了记忆任务中看似元认知的能力源于熟悉度等浅层线索,而非直接记忆访问。鉴于高于随机水平的置信度-准确性相关性可能源自一阶证据而不需要二阶监控这一事实,Fleming 和 Lau(2014 (https://arxiv.org/html/2605.26242#bib.bib22))建议应将元认知敏感性在信号检测理论框架内加以形式化。这一担忧直接适用于 LLM:对内部状态标签的预测高于随机水平可能源于与隐藏状态共有的输入特征,而不需要内省访问。  

近期工作已开始控制评估元认知时可能存在的混淆因素。Binder 等人(2024 (https://arxiv.org/html/2605.26242#bib.bib24))将内省定义为源自内部状态而非训练数据的知识,并测试模型能否比同等知情的外部模型更好地预测自身行为。他们所研究的模型显示出一定程度的特权访问,即它们比预测其他模型的行为更擅长预测自身行为。然而,他们的设计涉及训练内省,因此并未展示出涌现性内省。此外,正如他们所指出的,他们的实验未必能区分对隐藏状态的内省与在给定输入上*模拟*前向传播的能力。与我们工作更接近的是,Song 等人(2025 (https://arxiv.org/html/2605.26242#bib.bib25))主张更严格的*特权自我访问*标准,操作化为相对于任何第三方可获得的相等或更低计算成本过程的可靠性优势,并经验性地表明 LLM 中看似内省的成功可能无法满足这一标准。我们认同 Song 等人 (https://arxiv.org/html/2605.26242#bib.bib25) 批评的广泛动机,并将其扩展到另外两个被认为展示 LLM 元认知能力的范式。同时,我们认为特权访问*不足*以确立强意义上的内省。  

另一类工作训练模型用自然语言口头化关于自身激活的信息(Ghandeharioun et al., 2024 (https://arxiv.org/html/2605.26242#bib.bib31); Karvonen et al., 2025 (https://arxiv.org/html/2605.26242#bib.bib32); Li et al., 2025 (https://arxiv.org/html/2605.26242#bib.bib33))。Ghandeharioun 等人(2024 (https://arxiv.org/html/2605.26242#bib.bib31))引入了 Patchscopes,一个将隐藏表征修补到旨在提取信息的提示中的框架,统一了多种可解释性方法。Karvonen 等人(2025 (https://arxiv.org/html/2605.26242#bib.bib32))训练了将激活向量作为输入并回答相关问题的“激活神谕”,而 Li 等人(2025 (https://arxiv.org/html/2605.26242#bib.bib33))微调模型以描述其内部特征与因果结构。两项研究都得出结论,模型表现出*特权访问*:它们自我解释其内部状态优于其他模型解释它们。然而关键在于,这一结果模式可能是由于模型被优化以在其自身表征空间(而非其他模型的表征空间)中运作所致。换句话说,这些研究中使用的术语“特权访问”并不意味着根本上不同的处理模式;它仅仅意味着模型的前向传播通过构造直接访问其自身的隐藏状态,而跨模型解释则需要额外的对齐。这一现象更应理解为模型架构的后果,而非心理学意义上内省的证据。  

继 Lindsey(2025 (https://arxiv.org/html/2605.26242#bib.bib23))报告 Claude 能够检测概念注入之后,多个团队已尝试使用开放权重模型复制该实验。Vogel(2025 (https://arxiv.org/html/2605.26242#bib.bib34))报道在 Qwen2.5-Coder-32B 上使用适当提示成功复制。Rivera 和 Africa(2026 (https://arxiv.org/html/2605.26242#bib.bib36))报道,经过引导感知微调的 Qwen 2.5 32B 实现了 95.5% 的检测率且零误报,尽管这需要明确的检测训练。Lederman 和 Mahowald(2026 (https://arxiv.org/html/2605.26242#bib.bib44))认为,LLM 中的注入检测是内容无关的:模型检测到已发生异常,但无法可靠地识别注入的概念,而是默认输出高频猜测如“apple”。这一批评与我们的论点正交:Lederman 和 M

相似文章

LLMs 未显示出个体化元认知迹象

arXiv cs.LG

本文研究了前沿大语言模型是否表现出个体化元认知——即超越共享信号评估自身项目级别能力的能力。通过对20个模型和六个基准进行因子分析和成对校准,作者未发现此类元认知的证据;置信度差异归结为一个单一的共享难度因子,表明模型依赖于共同的难度信号而非模型特定的自我认知。

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

LLMs 并非你所认为的黑箱

Hacker News Top

一篇总结 Anthropic 2025 年关于机制可解释性论文的文章,表明 LLM 并非黑箱,电路追踪可以揭示多步推理和人类可识别的概念。

Cross-LLM推理一致性:来自共享交互的证据

arXiv cs.AI

本文利用基于交互的解释方法,研究了不同LLM在预测相同词元时是否共享共同的推理模式。结果表明,先进LLM展现出一致的交互模式,暗示它们隐式地优化到了共享的推理机制。