LLMs知道自己知道,但并未据此行动:一种用于测试时扩展的元认知框架
摘要
本文提出一种元认知框架,将LLMs中的监控与推理分离,利用解决前的已知感(feeling-of-knowing)和解决后的学习判断(judgment-of-learning)信号来控制何时信任、重试或聚合答案,在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。
arXiv:2605.14186v1 公告类型:新发布
摘要:大型语言模型(LLMs)通常会暴露有用的自我监控信号:在解决问题之前,它们可以估计自己是否可能成功,在解决问题之后,它们可以判断自己的答案是否正确。然而,这些信号通常被单独测量或引出,而不是用于控制推理。在这项工作中,我们探究LLMs是否具备潜在的元认知能力,这种能力可以转化为有效的测试时控制。受认知心理学中Nelson--Narens理论的启发,我们提出了一种将监控与推理分离的元认知框架。对于每个问题,模型首先报告解决前的已知感(FOK)信号;每次解决尝试后,它报告解决后的学习判断(JOL)信号。该框架不将这些信号视为被动的置信度估计,而是将其转化为显式的推理控制接口:它决定何时信任当前解决方案、何时使用紧凑的元认知反馈进行重试、以及何时将多次尝试传递给最终聚合器。在文本、代码和多模态推理基准测试中,我们的框架在固定Claude Sonnet-4.6基础模型上显著提升了性能,无需更新参数或针对特定基准进行微调。在评估的公开基准快照上,它从48.3的综合准确率提升到56.9,并在三个主要评估设置上超过了榜单上最强的条目:HLE-Verified、LiveCodeBench v6和R-Bench-V。这些结果表明,强大的LLMs可能已经具备有用的元认知能力,但需要一个显式的控制框架才能在推理过程中加以利用。
查看缓存全文
缓存时间: 2026/05/15 06:27
# LLMs 知道自己知道什么,但不会据此行动:一种用于测试时扩展的元认知控制框架 来源:https://arxiv.org/html/2605.14186 Qi Cao 加州大学圣迭戈分校 q9cao@ucsd\.edu &Yufan Wang 加州大学圣迭戈分校 yuw313@ucsd\.edu &Peijia Qin 加州大学圣迭戈分校 pqin@ucsd\.edu &Shuhao Zhang 加州大学圣迭戈分校 shz127@ucsd\.edu &Pengtao Xie 加州大学圣迭戈分校 p1xie@ucsd\.edu ###### 摘要 大型语言模型 \(LLMs\) 通常会展现出有用的自我监控信号:在解决问题之前,它们可以估计自己是否可能成功;在解决问题之后,它们可以判断自己的答案是否可能正确。然而,这些信号通常是被孤立地测量或引出,而非用于控制推理过程。在本文中,我们探讨 LLMs 是否具备潜在的元认知能力,这种能力可以被转化为有效的测试时控制。受认知心理学中 Nelson–Narens 理论的启发,我们提出了一种元认知控制框架,将监控与推理分离开来。对于每个问题,模型首先报告一个解答前的“知晓感”(FOK)信号;在每次求解尝试后,报告一个解答后的“学习判断”(JOL)信号。该框架不会将这些信号视为被动的置信度估计,而是将其转化为推理的显式控制接口:它决定何时信任当前解决方案,何时通过紧凑的元认知反馈进行重试,以及何时将多次尝试传递给最终聚合器。在文本、代码和多模态推理基准测试中,我们的框架在不更新参数或进行特定基准微调的情况下,显著提升了固定的 Claude Sonnet-4.6 基础模型的性能。在评估的公共基准快照上,它将聚合准确率从 48.3 提升至 56.9,并在三个主要评估设置(HLE-Verified、LiveCodeBench v6 和 R-Bench-V)上超越了最强的公开排行榜条目。这些结果表明,强大的 LLMs 可能已经具备了有用的元认知能力,但需要一个显式的控制框架来在推理过程中将其付诸行动。 ## 1 引言 参见标题 Figure 1:LLMs 展现了元认知信号,但并未利用它们来控制推理。\(a\) 我们直接提示每个 LLM 在回答前报告一个标量自我评估值 \(FOK,*知晓感*\),以及在回答后报告一个标量自我评估值 \(JOL,*学习判断*\)。\(b\) 这些自我报告分数与实际正确性之间存在有意义的关联:FOK/JOL 分数更高的示例准确率也更高,表明 LLMs 具备可用的元认知监控信号。\(c\) 然而,这些信号并未转化为适应性的推理控制:高置信度示例并未持续获得更多或更少的推理努力(以每个模型平均推理长度标准化后的长度衡量)。箭头数量总结了在九个评估的 LLM 中,高置信度带与低置信度带之间的逐模型比较:↑\uparrow 表示 High\>\>Low,↓\downarrow 表示 High\<“人类引导,智能体执行。” ——OpenAI,《控制框架工程》(Lopopolo, 2026 (https://arxiv.org/html/2605.14186#bib.bib36)) 近年来,大型语言模型 \(LLMs\) 的能力不断提升(Achiam 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib40);Wei 等人, 2022 (https://arxiv.org/html/2605.14186#bib.bib16);Snell 等人, 2025 (https://arxiv.org/html/2605.14186#bib.bib12))。它们可以解决广泛的任务,包括编程(Rozière 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib41))、数学推理(Lewkowycz 等人, 2022 (https://arxiv.org/html/2605.14186#bib.bib42);Gao 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib43))、问答(Achiam 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib40);Yao 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib44))以及需要规划和工具使用的智能体任务(Yao 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib44);Schick 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib45);Anthropic, 2025 (https://arxiv.org/html/2605.14186#bib.bib38))。在许多具有挑战性的基准测试中,LLMs 表现出了强大的性能,在特定领域常常接近甚至超越人类表现(Achiam 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib40);Lewkowycz 等人, 2022 (https://arxiv.org/html/2605.14186#bib.bib42);Snell 等人, 2025 (https://arxiv.org/html/2605.14186#bib.bib12))。因此,人类的角色正在从逐步解决问题转变为引导和控制这些系统的运行方式。最近的讨论使这一观点愈发明确:OpenAI 将此层面称为控制框架工程(Lopopolo, 2026 (https://arxiv.org/html/2605.14186#bib.bib36)),Anthropic 强调控制框架工程对于智能体行为的重要性(Anthropic, 2025 (https://arxiv.org/html/2605.14186#bib.bib38)),而 LangChain 则强调控制框架设计以及人机循环对于可靠智能体系统的控制作用(Trivedy, 2026 (https://arxiv.org/html/2605.14186#bib.bib37);LangChain, 2026 (https://arxiv.org/html/2605.14186#bib.bib39))。这些发展共同表明,随着 LLMs 变得更强,人类的一个重要角色是设计合适的控制框架,帮助模型更有效地利用它们的能力。 其中一个尚未充分探索的想法是元认知。越来越多的研究表明,LLMs 能够暴露有关其自身不确定性和正确性的有用信号(Kadavath 等人, 2022 (https://arxiv.org/html/2605.14186#bib.bib5);Xiong 等人, 2024 (https://arxiv.org/html/2605.14186#bib.bib17);Didolkar 等人, 2024 (https://arxiv.org/html/2605.14186#bib.bib1);Yuan 等人, 2024 (https://arxiv.org/html/2605.14186#bib.bib19))。这些研究确立了一个重要前提:自我报告的置信度和相关的元认知信号可以与实际成功相关联。然而,这些研究大多将元认知视为一个诊断对象——需要被引出、测量、校准或分析——而不是作为控制推理的机制。图 1 (https://arxiv.org/html/2605.14186#S1.F1) 明确指出了这一差距:LLMs 可以在解答前和解答后报告置信度分数;这些分数能够预测经验的正确性,但模型自身的推理努力并没有可靠地根据它们进行调整。换句话说,仅凭知道自己不确定,并不能使模型进行重试、验证或分配更多的计算资源。这引出了我们的核心问题:元认知信号能否被转化为一个控制接口,用以调节推理本身? 我们通过将元认知从诊断信号转化为控制接口来回答这个问题。受认知心理学中 Nelson–Narens 理论(Nelson 和 Narens, 1990 (https://arxiv.org/html/2605.14186#bib.bib9);Flavell, 1979 (https://arxiv.org/html/2605.14186#bib.bib2))的启发,我们将模型的自我监控信号视为推理时控制器的输入,而非待测量的终点。一个轻量级的诊断阶段首先在一个小的、不相交的锚点集上测试这些信号是否具有足够的判别性和校准性以支持控制。然后,它拟合一个模型特定的决策规则,该规则确定当前尝试何时应被信任,何时应分配额外的计算。在测试时,由此产生的控制框架执行选择性测试时扩展:可靠的尝试提前停止,而不确定但有希望的情况则获得额外的推理尝试和最终聚合。在 STEM、编程和多模态推理基准测试中,这个简单的控制层在不更新参数或进行特定基准微调的情况下,显著提升了固定的 Claude Sonnet-4.6 基础模型,在所有评估的公共排行榜上达到了最先进的性能。 我们的贡献总结如下: - •我们提出了一种元认知控制框架,将自我监控信号转化为推理时控制。基于 Nelson 和 Narens 的元认知理论(Nelson 和 Narens, 1990 (https://arxiv.org/html/2605.14186#bib.bib9);Flavell, 1979 (https://arxiv.org/html/2605.14186#bib.bib2)),该框架利用模型自身的元认知反馈来决定何时信任、重试、停止以及聚合推理尝试。 - •我们引入了一种轻量级的元认知诊断方法,用于衡量 LLM 是否暴露了可用于控制的信号。该诊断在一个小的、不相交的锚点集上评估判别性和校准性,并拟合一个模型特定的决策规则,将元认知反馈转化为重试和停止决策。 - •我们证明元认知控制能够在不改变基础模型的情况下改进推理。使用固定的 Claude Sonnet-4.6 模型,我们的控制框架在 STEM、编程和多模态推理的所有评估公开排行榜上达到了最先进的性能。消融实验表明,性能提升依赖于校准的决策规则、有方向的重试以及上下文管理,而非均匀采样或更长的单轨迹推理。 ## 2 相关工作 ##### 心理学中的元认知。在认知心理学中,元认知广义上指的是对自身认知过程的监控和调节,而不仅仅是对象层面的认知(Flavell, 1979 (https://arxiv.org/html/2605.14186#bib.bib2))。一个特别有影响力的框架是 Nelson 和 Narens 的监控与控制框架(Nelson 和 Narens, 1990 (https://arxiv.org/html/2605.14186#bib.bib9)),其中元层级评估为对象层级决策(例如是坚持、修改、终止还是分配额外努力)提供信息。在此框架下,两种判断尤为重要。*知晓感*(FOK)是一种前瞻性估计,评估一个人是否可能知道或检索出正确答案(Hart, 1965 (https://arxiv.org/html/2605.14186#bib.bib3);Reder 和 Ritter, 1992 (https://arxiv.org/html/2605.14186#bib.bib10));而*学习判断*(JOL)则是一种回顾性估计,评估产生的答案或所学内容是否正确(Nelson 和 Narens, 1990 (https://arxiv.org/html/2605.14186#bib.bib9);Metcalfe 和 Shimamura, 1994 (https://arxiv.org/html/2605.14186#bib.bib8))。这一区别对于我们的公式至关重要,其中尝试前和尝试后的判断被用作控制信号。 ##### LLM 中的元认知。先前的工作表明,LLMs 可以表达有用的不确定性和自我评估信号(Kadavath 等人, 2022 (https://arxiv.org/html/2605.14186#bib.bib5);Xiong 等人, 2024 (https://arxiv.org/html/2605.14186#bib.bib17);Yang 等人, 2024 (https://arxiv.org/html/2605.14186#bib.bib18))。更近期的研究通过技能意识(Didolkar 等人, 2024 (https://arxiv.org/html/2605.14186#bib.bib1))、自我意识干预(Tan 等人, 2025 (https://arxiv.org/html/2605.14186#bib.bib13))、解耦的元认知评估(Wang 等人, 2025a (https://arxiv.org/html/2605.14186#bib.bib14))以及内部状态中的内在元认知信号(Ma 等人, 2025 (https://arxiv.org/html/2605.14186#bib.bib6))来研究显式元认知。这些工作表明,LLMs 可能已经具备有意义的元认知能力,但它们主要关注引出、校准或测量这类信号,而非在推理过程中利用它们来调节推理行为。 ##### 自我完善、验证器与测试时控制。另一个相关研究方向探讨测试时控制是否能在不更新参数的情况下改进输出。Self-Refine 迭代地批判并修正当前答案(Madaan 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib7)),而 Reflexion 则存储来自任务反馈的言语反思以供后续试验使用(Shinn 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib11))。基于验证器和奖励模型的方法通过评分候选答案或中间步骤来改进推理,例如通过结果验证器、过程奖励模型或学习到的重排序器(Cobbe 等人, 2021 (https://arxiv.org/html/2605.14186#bib.bib46);Uesato 等人, 2022 (https://arxiv.org/html/2605.14186#bib.bib47);Lightman 等人, 2024 (https://arxiv.org/html/2605.14186#bib.bib48))。这些方法在选择生成的候选答案时非常强大,但它们通常依赖于外部评分模型或固定的候选池。另一条独立的研究路线通过分配更多的推理时计算来改进推理,例如通过思维链提示、自洽性和自适应测试时扩展(Wei 等人, 2022 (https://arxiv.org/html/2605.14186#bib.bib16);Wang 等人, 2023 (https://arxiv.org/html/2605.14186#bib.bib49);Snell 等人, 2025 (https://arxiv.org/html/2605.14186#bib.bib12))。我们的工作不同之处在于,它使用模型自身的前瞻性和回顾性元认知信号来控制生成本身:决定何时重试、何时停止以及如何在多次尝试之间管理上下文。 ## 3 方法 我们提出了一种用于选择性测试时扩展的*元认知控制框架*。核心思想很简单:我们不为每个问题分配相同量的推理计算,而是利用模型自身的元认知信号来决定额外的推理是否可能有用。我们的框架包含两个阶段。首先,我们进行*元认知诊断*,测量模型是否产生可靠的自我评估信号,并根据这些信号拟合一个重试规则。其次,我们在测试时应用这个拟合的规则,选择性地将额外的推理预算仅分配给看起来值得重试的问题。 ### 3.1 元认知信号 对于每个问题,模型被提示输出两个在 \([0,1]\) 范围内的标量自我评估信号。 ##### 知晓感(FOK)。在进行任何推理之前,模型被要求提供一个*知晓感*分数,反映其最初关于是否知道如何解决问题的信念。这一阶段旨在捕捉解题前的直觉而非部分推导,因此提示明确禁止计算、逐步推理或部分答案。 ##### 学习判断(JOL)。在生成解决方案后,模型输出第二个分数,我们称之为*学习判断*(JOL)。在操作层面,这个信号充当了答案后的置信度估计:它反映了模型认为其生成的答案有多大的把握是正确的。因此,对于问题 \(x\)(以及在适用情况下的图像 \(v\)),单次尝试会产生 \((FOK, c, a, JOL)\),其中 \(a\) 是答案,\(c\) 是推理轨迹。FOK 在求解前计算一次,而 JOL 在每次尝试后输出。 ### 3.2 元认知诊断 在使用元认知信号进行测试时扩展之前,我们针对每个候选模型,在一个由 100 个涵盖文本、代码和多模态领域的推理问题组成的小型*锚点集*上执行轻量级诊断。该锚点集与所有下游基准测试不相交,因此诊断不会污染最终评估。 ##### 基于锚点的可靠性诊断。对于每个模型,我们收集三元组 \((FOK_i, JOL_i, y_i)\),其中 \(y_i\) 表示单次通过的答案是否正确。我们使用这些三元组来评估原始元认知信号作为控制变量的可靠性,同时衡量它们在区分正确与错误答案方面的能力,以及它们与经验准确率之间的校准程度。 ##### 元认知决策函数。尽管 \(FOK\) 和 \(JOL\) 是与模型无关的自我报告,但不同的模型可能以不同的语义、尺度和失败模式来使用这些信号。因此,我们不强加一个手工制定的规则,例如固定的 \(JOL\) 阈值或通用的 \(FOK\) 与 \(JOL\) 组合。
相似文章
用 LLM 优化 LLM:面向测试时扩展的智能体发现方法
本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。
前沿大语言模型中的领域级元认知监控:一份33个模型图谱
本研究提出了一份涵盖33个模型的图谱,利用MMLU基准分析了前沿大语言模型中的领域级元认知监控,揭示了聚合指标所掩盖的不同知识领域中置信度校准的显著差异。
ReFlect:用于复杂长周期大语言模型推理的有效包装系统
本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。
LLM代理已经知道何时调用工具——甚至无需推理
本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。
HyperLens:利用细粒度置信度轨迹量化大型语言模型的认知努力
本文介绍了 HyperLens,一种高分辨率探针,可通过追踪层间的细粒度置信度轨迹来量化大型语言模型(LLMs)的认知努力。研究表明,复杂任务需要更高的认知努力,并展示了监督微调(SFT)如何降低这种努力,从而可能导致性能下降。