大型语言模型中的置信度校准
摘要
本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。
arXiv:2605.23909v1 公告类型:新
摘要:我们研究了大型语言模型(LLMs)在不同任务上的置信度校准情况。我们预先注册的研究结果表明,目前的主流LLMs和人类一样,过于确信自己正确:平均而言,置信度超过了准确率。然而,重要的是,这种趋势受到强大的难易效应的影响,即在困难测试中过度自信最为显著;相反,在简单测试中实际表现出明显的信心不足。我们开发了LifeEval,这是一个用于评估模型在不同难度级别下校准效果的测试。
查看缓存全文
缓存时间: 2026/05/26 08:58
# 大语言模型中的置信校准 来源:https://arxiv.org/html/2605.23909 ###### 摘要 我们研究了大语言模型在不同任务上的置信校准情况。我们的预注册研究结果表明,当前主流的大语言模型与人类一样,过于确信自己正确:平均而言,置信度超过了准确率。然而,重要的是,这一趋势受到强烈的“难易效应”的调节,即过度自信在困难测试中最为严重;反之,简单测试实际上表现出显著的信心不足。我们开发了 LifeEval,一个用于评估模型在不同难度级别上校准情况的测试。 ## 1 引言 大语言模型因其通过自然语言提供有用信息的能力而得到广泛采用(Bick 等,2024)。然而,LLM 作为指南、教师和顾问的有用性取决于它们能否提供真实准确的信息(Afroogh 等,2024)。幻觉现象——LLM 自信地报告虚假信息——从根本上削弱了它们的价值(Kalai 等,2025)。这就是为什么 ChatGPT 用户会看到一条警告:“ChatGPT 可能会犯错。请检查重要信息”(OpenAI, 2025a)。其他 LLM 也带有类似警告。理想情况下,LLM 应该只提供真实信息。但这至少出于两个原因是不现实的。首先,它忽略了不可约不确定性的复杂性。很少有事情可以完全确定地知道,完美的贝叶斯理性也只能提供概率性可信度。其次,它忽视了 LLM 信息获取的局限性(Tripathi 等,2025)。LLM 通常无法获取可验证的客观事实,必须依赖可用的不完美信息。接受这些约束后,一个更现实的可能是良好校准的置信度。也就是说,LLM 应该能够忠实地报告其正确的概率,并考虑其自身的局限性和易错性。这将允许用户依赖 LLM 所述的置信度。为此,用户必须相信置信度指示准确率。这种信任对于使自主系统能够在不确性过高时避免采取行动等众多用途至关重要。如果没有良好校准的置信度,用户可能会信任错误的输出或怀疑正确的输出。因此,幻觉和校准错误是损害 AI 实用性的核心认知风险。这促使我们在多种场景下测试商用 LLM 的置信校准。 本研究对 11 种流行的开源和闭源 LLM 在各种推理任务上进行了分析。我们发现: 1. LLM 平均而言是过度自信的。 2. 模型在困难任务上更加过度自信,而在最容易的任务上则信心不足。 3. 推理模型提供了更细致的置信估计。 此外,我们提出了一种新的测试方法——LifeEval,用于衡量模型在贝叶斯推理任务上的校准效果,如图 1 所示。该框架允许: - 基于经验概率的任务难度连续度量。 - 任务难度的单调缩放。 - 基于问题本身的定量要素而非定性要素评估模型性能。 参见图 1 的说明。 图 1:LifeEval,从左到右:用户向 LLM 提供性别、最小年龄和半径。LLM 给出其最佳猜测以及实际死亡年龄落在此范围内的置信度。我们根据模型的点估计和用户条件对响应进行评分。最后,我们比较模型响应的真实概率与模型所述的置信度。 ## 2 相关工作 人类判断容易受到许多偏误的影响,其中过度自信可能是后果最严重的(Kahneman, 2011)。良好校准的置信度是有效决策的基础,因为采取行动需要对其后果有足够的信心。然而,人类置信判断的校准情况众所周知地糟糕。人们是过度自信的,并且置信判断表现出“难易效应”:过度自信随难度增加而增加,而在简单任务上则出现信心不足(Lichtenstein 和 Fischhoff, 1977)。对难易效应最简约的解释是,它是均值回归的产物,是置信度与准确率之间噪声关系的副产品(Boundy-Singer 等, 2023;Krueger 和 Mueller, 2002)。难度的变化对准确率的影响比对置信度的影响更直接(Erev 等, 1994)。随着任务难度增加,表现下降,但如果置信度对这种准确率下降的响应不完美,过度自信必然增长。相反,当任务变得更容易且表现提高时,噪声置信判断会导致信心不足。对置信偏误的其他解释强调动机因素(Brown, 2012;Kruger 和 Dunning, 1999)。我们可能希望人工智能代理会较少受动机因素影响,从而表现出更好校准的置信度。另一方面,如果 LLM 的置信度与人类一样,是准确率的含噪信号,那么我们可能会看到类似的置信偏误。证据表明深度神经网络通常比其准确率更确信(Oelrich 等, 2020;Abdar 等, 2021),并且往往校准差(Guo 等, 2017;Xu 等, 2025)。尽管如此,最近的研究表明,大语言模型可能通过日益复杂的特性克服这些弱点(Kadavath 等, 2022;Xiao 等, 2025;Leng 等, 2025;Chhikara, 2025;Li 等, 2025)。 如果模型的过度自信随难度增加而增加,那么研究模型校准需要任务难度的变化。先前的方法试图通过三种方法之一评估任务难度:(1) 人类对难度的直观评估,(2) LLM 作为评判者(Hwang 等, 2025;Gobara 等, 2024),或 (3) 对提供的上下文进行缩放(Sung 等, 2025)。不幸的是,这些方法分别依赖于注释者、模型或问题作者的主观性。对人类困难的任务对 LLM 来说可能相当容易(Luong 等, 2025),而模型可能在日常人类任务上挣扎(Philip 和 Hemang, 2024)。此外,与人类一样,模型也受到自身偏误的影响,这可能影响其对任务难度的评级(Tabib 和 Deedar, 2025)。缩放上下文量可以缓解其中一些问题;然而,不清楚每段上下文如何影响整体难度。因此,简单添加或移除更多上下文可能无法反映真正的智力难度。此外,在几乎所有情况下,评估都依赖于粗糙的难度度量而非连续度量。相比之下,连续难度度量允许对模型校准进行更精确的分析,并更深入地理解难度与整体校准之间的关系。 我们通过首先系统研究 11 种大语言模型在五个不同测试上的置信校准,为这一文献做出贡献。其中一些测试比其他测试更符合模型的能力,从而允许对难易效应进行事后分析。为了将难度的影响与其他任务特征分离,我们开发了一个新任务 LifeEval,该任务允许在保持其他任务特征不变的情况下对难度进行无偏操作。LifeEval 要求提供概率性置信判断,然后我们将其与经验概率进行比较。该方法结合了调节难度的优点,同时避免了先前方法的上述限制。 表 1:六个问题集。 ## 3 方法 我们的计划使用六个基于英语的问题集(见表 1)对 11 种大语言模型进行测试。其中五种被宣传为推理模型:DeepSeek-R1(DeepSeek, 2025)、Gemini 2.5 Pro(Google, 2025b)、GPT-o3(OpenAI, 2025b)、Claude Sonnet 4(Anthropic, 2025b)和 Claude Sonnet 3.7(Anthropic, 2025a)。111 为增加结果可信度,我们预注册了研究计划。该预注册预先承诺我们进行并报告一系列计划中的分析。附录 A 解释了我们与预注册计划的偏差。我们将这些模型与六种“聊天”模型进行了比较:DeepSeek-V3(DeepSeek, 2024)、Gemini 2.5 Flash(Google, 2025a)、GPT-4o(OpenAI, 2024)和 Claude Haiku 3(Anthropic, 2024),以及两个本地运行、指令微调的 Llama 3.1 版本(8B 和 70B)(Meta, 2024a,b)。每个模型/问题集配对产生置信分布、准确率平均值和校准指标。如果分配最高概率的答案选项与真实答案相符(对于平局按比例计分),则将该回答计为正确。我们将置信度与观察到的准确率进行比较,以计算校准统计量,最核心的是期望校准误差(ECE)和过度自信。我们在相同条件下评估所有模型,以便观察到的校准或过度自信差异可归因于模型。对于每个问题集,我们采用一次性提示,指示模型以 JSON 格式返回输出。除 HaluEval 外,我们还采用了思维链提示策略,以鼓励更忠实、逐步的推理。我们在输入中重复系统提示以加强对格式规则的遵守。对于多项选择题(MCQ),我们提示模型选择一个答案并说明每个选项正确的可能性。这不仅允许我们观察分配给响应的置信度,还能观察其他答案选项的置信度分布。 模型类型 | 分数 (%) | ECE | 置信 (%) | % 四舍五入 | 难易 | NN --- | --- | --- | --- | --- | --- | --- Claude-Sonnet-3.7 | 推理 | 54.50 | 0.040 | 53.19 | 0.10 | 0.180 | 808 Claude-Sonnet-4 | 推理 | 54.00 | 0.063 | 49.89 | 8.80 | 0.327 | 808 DeepSeek-R1 | 推理 | 54.40 | 0.031 | 57.22 | 9.00 | 0.053 | 808 Gemini-2.5-Pro | 推理 | 53.80 | 0.025 | 53.41 | 8.00 | 0.092 | 808 GPT-o3 | 推理 | 54.20 | 0.029 | 54.16 | 9.80 | 0.189 | 761 推理模型汇总 | 54.20 | 0.037 | 53.56 | 1.10 | 0.168 | 751 Claude Haiku 3 | 聊天 | 53.00 | 0.267 | 79.81 | 100.0 | 0.996 | 808 DeepSeek-V3 | 聊天 | 53.30 | 0.124 | 63.71 | 100.0 | 0.782 | 808 Gemini-2.5-Flash | 聊天 | 53.80 | 0.098 | 63.64 | 8.90 | 0.192 | 808 GPT-4o | 聊天 | 54.50 | 0.085 | 59.81 | 100.0 | 0.604 | 808 Llama-3.1-70B | 聊天 | 53.50 | 0.185 | 72.09 | 9.50 | 0.874 | 807 Llama-3.1-8B | 聊天 | 48.40 | 0.142 | 59.91 | 100.0 | 0.941 | 800 聊天模型汇总 | 52.80 | 0.150 | 66.59 | 1.40 | 0.732 | 751 表 2:按模型类型划分的 LifeEval 性能指标。我们报告了平均分数、期望校准误差(ECE)、平均置信度、四舍五入输出百分比、难易(困难与过度自信之间的回归系数)以及完成数(NN)。LifeEval 的平均最大可达分数(MAS)为 56.80%。我们进行了回归分析,比较过度自信与问题难度(1−MAS_question)。更高的回归系数意味着更明显的难易效应。汇总行按列平均,但 NN 是所有模型(推理和聊天)共同回答的子集大小。分数 (%) 是每个模型在 LifeEval 上的平均分数。我们的问题级评分公式可参见式 (3)。 ## 4 问题集 我们选择了不同类型的问题,旨在捕捉校准成功或失败的各种条件。通过检查这些类型问题上的校准,我们寻求对模型校准的全面理解。有些问题,如真/假题,涉及双项强制选择(所谓的 2AFC 格式)。峰值评分关注首选选项及其正确置信度。标准做法是将响应分配到细分置信范围的箱中(Moore 等, 2015;Keren, 1988)。这便于计算过度自信和基于箱的 ECE。表 1 包含我们分析中使用的每个问题集的简要描述。 ### 4.1 BoolQ 和 SciQ 为了衡量通用知识中的模型校准,我们使用了来自 SciQ 数据集的 1000 道多项选择题(MCQ)以及来自 BoolQ 数据集的 3270 道真/假题。我们根据每个问题的真实答案对模型进行评分。 ### 4.2 LSAT-AR 为了评估逻辑推理中的校准,我们使用了来自 LSAT 分析推理部分的 230 道题。每个问题包含五个多项选择答案选项。这些任务需要多步推理、规则应用和推断,非常适合测试模型的置信度是否随着逻辑复杂性增加而适当降低。 ### 4.3 SAT-EN 为了评估上下文理解,我们在 1000 道基于文本的推断题上评估了模型,这些题目来自 SAT 英语部分。每篇文章附有多项选择理解题,要求信息提取、推断以及对微妙文本细节的推理。我们将模型置信度与实际准确率在不同文章复杂度水平上进行对比,以衡量校准情况。这使我们能够测试当答案依赖于微妙的上下文线索时,模型是否保持适当的置信度。 ### 4.4 HaluEval 为了评估 LLM 容易产生幻觉的情况下的置信度,我们使用了 HaluEval 问题集。
相似文章
大语言模型不确定性中的人类对齐、校准与激活模式
本文研究大语言模型的不确定性与人类不确定性的相似程度,探讨LLMs在多个数据集上的对齐、校准和激活模式,以及指令微调的影响。
一种更优的识别大语言模型过度自信的方法
MIT研究人员开发了一种新方法,通过衡量相似模型间的跨模型分歧来识别过度自信的LLM,而非仅依赖自洽性指标。该方法能更好地捕捉认知不确定性,并在高风险应用中更准确地识别出不可靠的预测。
检索增强的语言校准
本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。
概率校准是大语言模型中的一项可训练能力
本文研究了语言模型的概率校准能力是否可以通过微调得到提升,并在12种模型上比较了软目标和硬目标两种方法。结果表明,校准能力是可以训练的,但有时会导致下游算术推理能力的下降。
基于语义级奖励的LLM校准
提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。