推理中的校准漂移:Chain-of-Thought 预算如何导致大型语言模型过度自信

arXiv cs.CL 论文

摘要

本文识别了推理中的校准漂移(CDUR),即增加思维链推理预算会导致大型语言模型在错误答案上系统性地过度自信,并提出了一个假设锁定模型(Hypothesis Lock-In)和一个校准感知的停止规则(CABStop)来缓解该问题。

arXiv:2606.11211v1 Announce Type: new 摘要:大型语言模型(LLMs)表达校准后不确定性的能力对于安全部署至关重要。思维链(CoT)推理被广泛用于提高准确性和可靠性,但其对校准的影响尚未被完全理解。我们表明,这一图景并不完整:在某些设置中,将推理预算增加到超出特定任务阈值会导致模型变得系统性地过度自信,对错误答案赋予高置信度。我们将此现象称为推理中的校准漂移(CDUR),并从理论和实证两方面进行研究。 我们定义推理预算B,并分析预期校准误差ECE(B)呈现非单调模式的条件:它先随着推理纠正错误而下降,然后随着更长的推理产生内部一致但错误的解释而上升。我们提出了一个基于自回归生成的假设锁定模型(Hypothesis Lock-In)来解释这一行为。 我们在四个推理预算和三个随机种子(1,368次API调用;574个有效响应)下,对47个推理陷阱问题评估了Llama-3.1-8B和Llama-3.3-70B。8B模型显示出非单调的校准行为,而70B模型的结果仅限于基线评估,且对于预算依赖效应尚无定论。 我们引入了CABStop,一种校准感知的停止规则,当置信度偏离辅助准确性估计时,它会停止推理。这些结果表明,增加推理深度并不总能提高可靠性,应谨慎监控。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:35

# 内容来源:https://arxiv.org/html/2606.11211 ![[未标注图片]](https://arxiv.org/html/2606.11211v1/AOE.jpeg)
推理下的校准漂移:思维链预算如何导致大型语言模型的过度自信  
Prakul Sunil Hiremath [email protected] Harshit R Hiremath [email protected]  
计算机科学与工程系  
Visvesvaraya Technological University, Belagavi  
计算机科学与商业系统系  
SG Balekundri Institute of Technology, Belagavi  

###### 摘要  
大型语言模型(LLMs)表达校准不确定性的能力是其安全部署的前提。思维链(CoT)推理被广泛推崇为一种既可提升准确性又能增强可靠性的技术。我们认为这一观点并不完整:至少在部分模型规模和问题类型中,当推理预算超过问题特定阈值时,模型可能会系统性地变得过度自信——对错误答案表达高概率。我们将这一现象称为“推理下的校准漂移”(CDUR),并从形式化和实证角度进行研究。形式上,我们定义了推理预算 \(B\),并分析了预期校准误差 \(\mathrm{ECE}(B)\) 在 \(B\) 上呈非单调轨迹的条件:最初随着推理纠正表面错误而下降,随后因扩展的推理链产生内部一致但事实错误的路径而上升。我们引入了一种基于自回归生成的“假设锁定模型”(Hypothesis Lock-In Model)来解释这一机制。实证上,我们在 47 道推理陷阱问题上评估了 Llama-3.1-8B 和 Llama-3.3-70B 两种模型,设置四种推理预算和三组种子(共 1368 次 API 调用;574 条有效响应)。8B 模型表现出非单调的校准行为,而 70B 的结果仅限于基准评估,关于预算依赖的动态尚无定论。我们提出了 CABStop,一种校准意识的停止规则,当置信度偏离辅助准确性估计时停止推理。这些发现表明,增加推理深度并不会统一提升可靠性,应进行明确监控。

关键词:校准,思维链推理,预期校准误差,过度自信,大型语言模型,推理预算

###### 目录  
1. [引言](#S1)  
   1.1 [核心现象](#S1.SS1)  
   1.2 [为何重要](#S1.SS2)  
   1.3 [贡献](#S1.SS3)  
2. [背景与相关工作](#S2)  
   2.1 [机器学习中的校准](#S2.SS1)  
   2.2 [思维链推理](#S2.SS2)  
   2.3 [LLM 的过度自信](#S2.SS3)  
   2.4 [停止规则与最优推理](#S2.SS4)  
3. [形式化推理下的校准漂移](#S3)  
   3.1 [推理预算](#S3.SS1)  
   3.2 [校准作为推理预算的函数](#S3.SS2)  
   3.3 [CDUR 的定义](#S3.SS3)  
   3.4 [命题](#S3.SS4)  
4. [机制模型:假设锁定](#S4)  
   4.1 [承诺模型](#S4.SS1)  
   4.2 [与自回归生成的关联](#S4.SS2)  
   4.3 [与 RLHF 奖励塑形的关联](#S4.SS3)  
   4.4 [假设锁定的经验标志](#S4.SS4)  
   4.5 [假设锁定示意图](#S4.SS5)  
5. [实验设置](#S5)  
   5.1 [模型](#S5.SS1)  
   5.2 [数据集构建](#S5.SS2)  
   5.3 [有效性过滤与潜在偏差](#S5.SS3)  
   5.4 [推理预算](#S5.SS4)  
   5.5 [置信度引出及其局限性](#S5.SS5)  
   5.6 [指标](#S5.SS6)  
6. [结果](#S6)  
   6.1 [主要结果:非单调校准动态](#S6.SS1)  
   6.2 [解读 8B 校准弧线](#S6.SS2)  
   6.3 [70B 结果差距](#S6.SS3)  
   6.4 [错误且自信的分析(确凿证据)](#S6.SS4)  
   6.5 [置信度-准确性散点图:聚合 ECE 的局限性](#S6.SS5)  
   6.6 [统计不确定性与方差](#S6.SS6)  
   6.7 [置信度-准确性解耦](#S6.SS7)  
   6.8 [扩展推理下的错误持续性](#S6.SS8)  
   6.9 [何时更多推理有益或有害](#S6.SS9)  
   6.10 [陷阱类别分析](#S6.SS10)  
7. [CABStop 算法](#S7)  
   7.1 [动机](#S7.SS1)  
   7.2 [形式化为最优停止问题](#S7.SS2)  
   7.3 [算法](#S7.SS3)  
   7.4 [TikZ: CABStop 机制](#S7.SS4)  
   7.5 [讨论](#S7.SS5)  
8. [有效性威胁](#S8)  
9. [讨论](#S9)  
   9.1 [何时应预期 CDUR](#S9.SS1)  
   9.2 [对推理时间扩展的启示](#S9.SS2)  
   9.3 [对模型评估的启示](#S9.SS3)  
   9.4 [理论局限性](#S9.SS4)  
   9.5 [与人类推理的联系](#S9.SS5)  
10. [未来工作](#S10)  
11. [结论](#S11)  
参考文献  
A [证明细节](#A1)  
   A.1 [形式化一致性分数](#A1.SS1)  
   A.2 [假设鲁棒性讨论](#A1.SS2)  
B [数据集:陷阱问题示例](#A2)  
C [实验日志(摘要)](#A3)  

## 1 引言  
一个*校准良好*的模型,其表达的对答案的置信度可靠地反映了答案正确的概率[De Groot and Fienberg, 1983 (https://arxiv.org/html/2606.11211#bib.bib2), Guo et al., 2017 (https://arxiv.org/html/2606.11211#bib.bib5)]。校准失败——尤其是过度自信——会损害人机协作、侵蚀信任,并导致下游决策中的系统性错误。思维链(CoT)提示[Wei et al., 2022 (https://arxiv.org/html/2606.11211#bib.bib17)]已成为提升 LLM 在多步推理任务性能的标准技术。其直觉颇具吸引力:通过在给出答案前生成中间推理步骤,模型可以分解难题、捕捉算术错误,并得出更有依据的结论。大规模结果证实,更长的推理链往往能提高准确性[Kojima et al., 2022 (https://arxiv.org/html/2606.11211#bib.bib8), Lightman et al., 2023 (https://arxiv.org/html/2606.11211#bib.bib9)]。  

我们的核心主张。准确性提升并不意味着校准改善。更准确地说,我们观察到至少在小型模型和结构化的推理陷阱任务中,增加推理预算可以*膨胀置信度而不成比例地提升正确性*——我们将这一状态称为“推理下的校准漂移”(CDUR)。我们强调,这一主张是作为观察到的且有理论动机的现象提出的,而非普遍成立的定律:证据强度因模型规模而异,且若干方法论限制约束了我们结论的范围。

### 1.1 核心现象  
设想一个模型最初对某个问题的回答置信度低且准确性不高。当被提示进行更广泛推理时,其准确性可能上升——但表达的置信度也可能上升,且并非总是成比例。在某个预算水平 \(B^*\) 处,置信度可能开始超过准确性。超过 \(B^*\) 后,模型不仅错误,而且*自信地错误*。这一模式在图 2 (https://arxiv.org/html/2606.11211#S6.F2) 中示意性说明,并在第 6 节 (https://arxiv.org/html/2606.11211#S6) 中通过实验探索,我们发现 Llama-3.1-8B 的行为与此描述一致。较大的 Llama-3.3-70B 模型的证据不完整(第 6.3 节 (https://arxiv.org/html/2606.11211#S6.SS3))。

### 1.2 为何重要  
**安全性**。一个声称“我 95% 自信”但实际错误 50% 的模型,比一个说“我 60% 自信”但错误比例相同的模型更危险。  
**推理时间扩展**。近期工作提出将更多计算资源分配给推理时的困难问题[Snell et al., 2024 (https://arxiv.org/html/2606.11211#bib.bib13)]。如果没有校准意识,这种扩展可能适得其反:模型变得更昂贵,*并且*在某些机制下变得过度自信。  
**人工监督**。当模型集成到人类决策流程中时,过度自信的错误答案更难被人类发现和纠正。

### 1.3 贡献  
本文做出以下贡献,明确说明以反映我们证据的范围:  
1. (1) **形式化框架**。我们提供了 CDUR 的严格定义,作为校准函数 \(\mathrm{ECE}(B)\) 的一个性质,并在概率推理模型下陈述了三个形式化命题来刻画其行为(第 3 节 (https://arxiv.org/html/2606.11211#S3))。这些命题为该现象提供理论依据;它们并非作为任意 LLM 的性质被证明,而是在明确的承诺模型抽象下。  
2. (2) **假设锁定模型**。我们引入并分析了一个自回归推理机制模型,解释校准漂移可能发生的原因,并刻画了其最严重的条件(第 4 节 (https://arxiv.org/html/2606.11211#S4))。  
3. (3) **实证观察**。我们在两个 Llama 模型家族上,跨四个推理预算和 21 个陷阱问题类别进行了对照实验,测量了 ECE、准确性和过度自信差距。对于 Llama-3.1-8B,我们观察到非单调的校准动态,与 CDUR 框架定性一致。对于 Llama-3.3-70B,结果仅限于无推理条件,因此具有提示性但不具决定性(第 6 节 (https://arxiv.org/html/2606.11211#S6))。  
4. (4) **CABStop 算法**。我们提出了一种原则性的推理停止规则,在过度自信状态前停止,并将其作为最优停止的一个实例进行分析(第 7 节 (https://arxiv.org/html/2606.11211#S7))。

## 2 背景与相关工作  
### 2.1 机器学习中的校准  
校准的形式化研究起源于预测文献[De Groot and Fienberg, 1983 (https://arxiv.org/html/2606.11211#bib.bib2), Murphy, 1977 (https://arxiv.org/html/2606.11211#bib.bib11)]。Guo 等人 [2017 (https://arxiv.org/html/2606.11211#bib.bib5)] 表明现代深度神经网络校准不良,温度缩放提供了一种简单的后处理修复。Desai 和 Durrett [2020 (https://arxiv.org/html/2606.11211#bib.bib3)] 将分析扩展到使用预训练语言模型的文本分类。对于生成模型,校准必须通过语言化的概率来测量[Kadavath et al., 2022 (https://arxiv.org/html/2606.11211#bib.bib7), Xiong et al., 2024 (https://arxiv.org/html/2606.11211#bib.bib18)],因为在部署中 token 级别的似然不可直接访问。

### 2.2 思维链推理  
Wei 等人 [2022 (https://arxiv.org/html/2606.11211#bib.bib17)] 表明少样本 CoT 提示显著提升了算术和常识推理的性能。Kojima 等人 [2022 (https://arxiv.org/html/2606.11211#bib.bib8)] 显示零样本 CoT(“让我们一步一步思考”)也能达到类似增益。Lightman 等人 [2023 (https://arxiv.org/html/2606.11211#bib.bib9)] 研究了过程级监督,表明奖励正确的中间步骤可进一步提升准确性。预算受限的推理在推理时间扩展的背景下被探索[Snell et al., 2024 (https://arxiv.org/html/2606.11211#bib.bib13), Muennighoff et al., 2025 (https://arxiv.org/html/2606.11211#bib.bib10)],其中额外的计算资源根据估计的问题难度按比例分配。

### 2.3 LLM 的过度自信  
Xiong 等人 [2024 (https://arxiv.org/html/2606.11211#bib.bib18)] 表明 LLM 在语言化其置信度时系统性地过度自信,尤其是在更难的问题上。Zhou 等人 [2023 (https://arxiv.org/html/2606.11211#bib.bib19)] 记录了在某些条件下思维链可能增加幻觉。Turpin 等人 [2023 (https://arxiv.org/html/2606.11211#bib.bib14)] 表明即使在高质量响应中,虚假的推理模式也很常见。我们的工作与众不同之处在于明确关注推理预算与校准之间的*交互*,并将其形式化为函数 \(\mathrm{ECE}(B)\)。

### 2.4 停止规则与最优推理  
最优停止文献[Wald, 1947 (https://arxiv.org/html/2606.11211#bib.bib15), Chow and Robbins, 1961 (https://arxiv.org/html/2606.11211#bib.bib1)] 为解决何时停止顺序计算提供了自然框架。Graves [2016 (https://arxiv.org/html/2606.11211#bib.bib4)] 将自适应计算应用于递归网络。我们的 CABStop 算法实例化了对 LLM 推理轨迹的停止规则。

## 3 形式化推理下的校准漂移  
我们现在为 CDUR 现象提供形式化描述。令 \(\mathcal{Q}\) 为一组问题,\(\mathcal{A}\) 为标签空间。模型 \(\mathcal{M}\) 以问题 \(q \in \mathcal{Q}\)、推理预算 \(B \in \mathbb{N} \cup \{0\}\) 为输入,产生答案 \(\hat{a} \in \mathcal{A}\) 和语言化置信度 \(\hat{p} \in [0,1]\)。

### 3.1 推理预算  
**定义 3.1(推理预算)**。*推理预算* \(B\) 是对生成答案前分配给中间推理步骤的 token 数量的上界。我们称 \(B=0\) 对应直接(无推理)推断,\(B=\infty\) 表示无界推理。  
在实践中,我们离散化:\(B \in \{\text{none}, \text{light}, \text{medium}, \text{heavy}\}\),分别对应大约 0、128、512 和 2048 个 token。

### 3.2 校准作为推理预算的函数  
**定义 3.2(预算条件校准)**。对于推理预算 \(B\),定义:  
\[
\mathrm{Acc}(B) = \mathbb{P}_{q}[\hat{a}(q,B) = a^{*}(q)],
\tag{1}
\]  
\[
\mathrm{Conf}(B) = \mathbb{E}_{q}[\hat{p}(q,B)],
\tag{2}
\]  
\[
\mathrm{OG}(B) = \mathrm{Conf}(B)

相似文章

脆弱的思考:大型语言模型如何处理思维链扰动

arXiv cs.CL

本论文对大型语言模型在思维链推理步骤中处理损坏情况的能力进行了全面的实证评估,在数学推理任务上针对13个模型和5种扰动类型(数学错误、单位转换、盲从、跳过步骤、额外步骤)进行了测试。研究结果揭示了异质性的漏洞模式,对在多阶段推理管道中部署LLM具有重要意义。

大语言模型对其自身回应过度自信

Hugging Face Daily Papers

本文探究为何经过指令微调的大语言模型对其自身回应表现出过度自信,并识别出一种“所有权偏差”,即模型对自我生成的答案赋予更高置信度。文章提出一种简单的推理时策略,将模型答案重新表述为用户输入,无需重新训练即可将校准度提升高达26%。

通过纠正少数决策令牌即可恢复推理能力

arXiv cs.AI

本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。