大语言模型不确定性中的人类对齐、校准与激活模式
摘要
本文研究大语言模型的不确定性与人类不确定性的相似程度,探讨LLMs在多个数据集上的对齐、校准和激活模式,以及指令微调的影响。
arXiv:2605.30675v1 公告类型:新论文
摘要:不确定性量化是大语言模型行为分析中一个庞大且不断发展的子领域。该领域主要为了识别和应对幻觉,重点在于测量和改善校准,即不确定性判断对任务效果的准确性。在本工作中,我们研究了一个相对未充分探索的问题:大语言模型的不确定性与人类不确定性有多大相似性。我们研究了在大型语言模型的外显行为和内部激活模式中,人类相似不确定性信号(即不确定性对齐)的存在和强度。我们识别了模型在涵盖多项选择和开放式事实回忆的多种数据集上是否同时展现出对齐和校准的证据。并且我们描述了指令微调对上述每个方面的影响。
查看缓存全文
缓存时间: 2026/06/01 09:27
# 大型语言模型不确定性中的人类对齐、校准与激活模式 来源:https://arxiv.org/html/2605.30675 Kyle Moore¹,Jesse Roberts²,Daryl Watson²,William Ward²,Grayson Heyboer² ¹范德堡大学 ²田纳西理工大学 通讯作者:[email protected] (https://arxiv.org/html/2605.30675v1/mailto:[email protected]) / [email protected] (https://arxiv.org/html/2605.30675v1/mailto:[email protected]) ###### 摘要 不确定性量化是大型语言模型行为分析中一个庞大且不断发展的子领域。该领域主要致力于识别和对抗幻觉,其重点一直放在测量和改进校准(即不确定性判断与任务效能之间的准确性)上。在本文中,我们探讨一个相对未被充分研究的问题:大型语言模型的不确定性与人类不确定性有多相似?我们研究了大型语言模型的外部行为和内部激活模式中是否存在类似人类的不确定性信号(称为不确定性对齐),并分析了这些信号的强度。我们识别了模型是否在涵盖多项选择和开放式事实回忆的多种数据集上同时表现出对齐和校准的证据。此外,我们描述了指令微调对每个方面的影响。† †所有代码均以宽松许可证形式发布在:https://github.com/KyleAMoore/LLM-UQ-Align-and-Calibrate --- ## 1 引言 量化并表征基于 Transformer 的大型语言模型(LLM)的不确定性已成为一个主要研究焦点。准确的不确定性量化(UQ)是识别和缓解模型幻觉(Farquhar 等,2024 (https://arxiv.org/html/2605.30675#bib.bib20))以及建立和维护用户对基于 LLM 应用信任的重要因素,尤其是在幻觉威胁下。尽管大量研究致力于开发校准良好的 UQ 方法和模型(即不确定性准确指示模型效能(Guo 等,2017 (https://arxiv.org/html/2605.30675#bib.bib10);Shorinwa 等,2025 (https://arxiv.org/html/2605.30675#bib.bib21))),但很少有工作探讨 LLM 的不确定性行为是否类似于人类这一相关问题。我们认为,LLM 中的人类相似性可能对人机协作产生重要影响。不确定性发生和呈现方式的相似性越高,当提供不确定性判断时,用户可能会更自然地将他们对人类-人类人际互动中不确定性行为的直觉期望迁移到人机协作中,从而促进 LLM 与用户之间的融洽关系。相反,不确定性发生的差异性可能有助于人机协作,使双方能够相互弥补弱点。除了实用性之外,LLM 不确定性中的人类相似性(或差异性)可能对将人类关于不确定性的行为研究成果迁移到 AI 行为预期(反之亦然)具有重要意义。相似性和差异性都可能引发对背后机制的进一步探询,包括记忆组织与学习过程中信息可用性的比较。 在本文中,我们从广度和深度两方面扩展现有文献,以更好地理解多种 LLM 中人类对齐不确定性的发生、呈现和来源。我们首先将 Moore 等人(2026 (https://arxiv.org/html/2605.30675#bib.bib2))的工作扩展到更广泛的模型覆盖范围和更大、更多样化的数据集。我们首次尝试在自由回答上下文中测量不确定性对齐。然后,通过在相同上下文中同时测量对齐和校准,将不确定性对齐与校准联系起来。最后,我们探测 LLM 的激活模式,以刻画不确定性对齐在内部产生的方式和位置。简而言之,我们识别出以下主要发现: 1. LLM 的不确定性通常与人类不确定性呈弱到中度正相关,这种相关性受任务和模型影响。 2. 不确定性对齐和校准都会因指令微调而显著退化。 3. 在内部激活中检测到的人类对齐不确定性比在输出 logits 中更强,群体层面与个体层面的对齐存在定性差异。 ## 2 不确定性量化 LLM 中的不确定性量化已得到广泛研究,通常以检测和减少模型幻觉为明确目标。在本节中,我们简要综述现有 UQ 研究以及如何测量校准(UQ 研究的典型目标)。 ### 2.1 先前工作 普遍意义上的不确定性量化作为 LLM 研究的一个子领域发展迅速。所采用的技术已经非常丰富,并得到了充分综述(Shorinwa 等,2025 (https://arxiv.org/html/2605.30675#bib.bib21);Liu 等,2025 (https://arxiv.org/html/2605.30675#bib.bib4))。该领域的研究通常旨在识别和促进不确定性校准,而较少关注建立人类相似性。现有工作探讨了 LLM 的校准与人类的校准有多相似(Sun 等,2025 (https://arxiv.org/html/2605.30675#bib.bib5))、人类对 LLM 确定性的估计与真实不确定性之间的差异(Steyvers 等,2025 (https://arxiv.org/html/2605.30675#bib.bib6)),以及 LLM 是否也会表现出由不确定性调节的类似人类行为(Xu 等,2025 (https://arxiv.org/html/2605.30675#bib.bib9);Roberts 等,2024 (https://arxiv.org/html/2605.30675#bib.bib7);Moore 等,2025 (https://arxiv.org/html/2605.30675#bib.bib8))。据我们所知,直接研究不确定性对齐的现有工作仅有 Moore 等人(2026 (https://arxiv.org/html/2605.30675#bib.bib2)),他们使用我们在此采用的措施的一小部分,在 LLaMa 和 Mistral 模型中发现了不确定性对齐的初步但较弱的证据。此外,他们没有研究模型激活或开放回答。 ### 2.2 期望校准误差 模型校准最常用的度量是期望校准误差(ECE),定义为模型置信度(通常视为不确定性的加性逆)与给定置信水平下模型准确率之间期望绝对差(Guo 等,2017 (https://arxiv.org/html/2605.30675#bib.bib10))。由于每个实例的模型正确性是二元的,该度量通常使用分箱近似来估计。将 \(n\) 个实例根据置信度水平分成 \(m\) 个箱,每个箱具有相应的箱内准确率 \(acc(B_i)\) 和箱内平均置信度 \(conf(B_i)\)。然后,ECE 取所有箱上这两个量之间加权平均绝对差(公式 1)。 \[ ECE \approx \sum_{m=1}^{M} \frac{|B_m|}{n} |acc(B_m) - conf(B_m)| \] (1) 已知 ECE 对分箱过程的选择很敏感,箱的数量以及跨箱概率质量分布都会影响 ECE 成功捕捉真实校准的程度(Wang, 2023 (https://arxiv.org/html/2605.30675#bib.bib11))。在本文中,所有 LLM 校准测量均使用称为 ECESweep 的技术(Roelofs 等,2022 (https://arxiv.org/html/2605.30675#bib.bib12))。该方法动态确定箱数,使得在范围 \([2, m]\) 内的所有箱数下,箱内准确率 \(acc(B_i)\) 随 \(i\) 增加保持单调性,从而最大化箱数 \(m\)。作者发现该方法有效减少了分箱偏差,并能更好地检测误校准。 ## 3 方法 在本节中,我们描述实验细节,涵盖测试的多种 LLM(第 3.1 节)、使用的数据集(第 3.2 节)、量化 LLM 不确定性的方法(第 3.3 节)、模型推理与查询构建(第 3.4 节)以及采用的激活探测技术(第 3.5 节)。 ### 3.1 模型选择 我们使用 30 个开放权重的纯文本 LLM,代表多种模型家族(涵盖 LLaMa、Mistral、Gemma 和 Falcon)和模型规模(每个模型参数从 1B 到 13B 不等)。具体来说,我们测试了 LLaMa 2(7B 和 13B)(Touvron 等,2023 (https://arxiv.org/html/2605.30675#bib.bib13))、LLaMa 3(1B、3B 和 8B)(Grattafiori 等,2024 (https://arxiv.org/html/2605.30675#bib.bib14))、Mistral(0.1 和 0.3,均为 7B)(Jiang 等,2023 (https://arxiv.org/html/2605.30675#bib.bib15))、Gemma(2B 和 7B)(Team 等,2024a (https://arxiv.org/html/2605.30675#bib.bib16))、Gemma(2B 和 9B)(Team 等,2024b (https://arxiv.org/html/2605.30675#bib.bib17))以及 Falcon 3(1B、3B、7B 和 10B)(Team, 2024 (https://arxiv.org/html/2605.30675#bib.bib3))。在所有情况下,我们对每个模型都测试了指令微调版本和基础版本。 ### 3.2 数据集 所有非探测实验均在四个数据集上相同地进行。所有数据集都是问答任务,在主题覆盖和问题格式上都有显著差异。我们的第一个数据集是常用的多项选择问答(MCQA)数据集 MMLU(Hendrycks 等,2020 (https://arxiv.org/html/2605.30675#bib.bib18))。该数据集包含来自广泛事实主题的超过 14K 个多项选择问题。由于该数据集不提供每道题的人类不确定性响应信息,因此它主要作为测量其余数据集 ECE 时的既定基线。其余每个数据集都提供人类响应数据,我们从中得出每道题人类不确定性的估计值。第一个是 ProtoQA(Boratko 等,2020 (https://arxiv.org/html/2605.30675#bib.bib19)),这是一个受《家庭问答》启发的数据集,包含 8724 个众包纯偏好或观点性问题。每个问题都有一组大小可变的答案,由人类调查受访者提供。平均而言,每个问题关联 5.033 个答案选项和 89.407 个独立的人类受访者。第二个数据集 CamChoice(Mullooly 等,2023 (https://arxiv.org/html/2605.30675#bib.bib24))包含 504 道阅读理解题,每道题与一段作为问题基础的段落相关联。该数据集中的所有问题恰好有 4 个可用的答案选项,每段平均关联 6.46 道题。推理时,段落被添加到问题之前,使得每道题及其相关段落独立呈现给模型。对于 CamChoice 和 ProtoQA 数据集,我们可以获取选择每个可用答案选项的人类受访者百分比。对于这些数据集,我们将人类不确定性视为这些响应百分比上的归一化熵,我们将其视为群体不确定性的一种度量。 最后一个数据集本文称为 Coane 数据集,以其第一作者 Coane 和 Umanath(2021 (https://arxiv.org/html/2605.30675#bib.bib23))命名。该数据集包含 421 道常识问题,呈现给老年被试。与 ProtoQA 和 CamChoice 类似,Coane 数据集提供了每道题选择 4 个答案选项中的被试百分比,从而也可以计算这些响应上的熵。此外,Coane 还提供了平均响应时间。他们根据正确性分离响应时间,但提供了足够的信息来重建所有被试的平均响应时间,我们将其视为平均个体不确定性,遵循认知科学中既定的解释(Hick, 1952 (https://arxiv.org/html/2605.30675#bib.bib1))。除了 MCQA 任务,Coane 还在相同问题集上提供了开放式问答(OEQA)变体的人类响应数据。这使我们能够在不显著改变上下文的情况下,同时研究 MCQA 和 OEQA 情境下的不确定性对齐。提供的人类数据允许我们计算所有受访者的平均响应时间,我们将其解释为 OEQA 情境下的平均个体不确定性。 ### 3.3 不确定性度量 我们的实验仅限于一系列推理时的 LLM UQ 度量,这些度量可以从每个推理时间步的即时模型 logits 和激活中计算得出。这种每次迭代的不确定性信号,除了比多推理 UQ 方法计算成本更低外,更有利于在下游应用和分析中使用信号。例如,如果只能访问序列级别的不确定性值,则难以或不可能对生成过程中不确定性的发生进行未来分析。为了在度量选择敏感性可能存在的条件下实现广泛覆盖,并同时涵盖 MCQA 和 OEQA 任务,我们实验了 4 个广泛但相互关联的 UQ 度量类别:MCQA 度量、自由回答(FR)、括号式自由回答(BFR)和第一 token 自由回答(1TFR)。 #### 3.3.1 MCQA 度量 基本的不确定性度量集是为 MCQA 定义的,主要改编自 Moore 等人(2026 (https://arxiv.org/html/2605.30675#bib.bib2))使用的度量。这些度量分为 5 个子类别:全分布度量、完形填空度量、top-k 熵、top-p 熵和 top-p 大小。有两个全分布度量:top-1-prob 和 total-ent。前者是整个词汇表上最高概率 token 的加性逆,即 \(1 - \max_{v \in V}(P(v|C_{MC}))\),其中 \(C_{MC}\) 是多项选择格式的上下文,\(V\) 是完整模型词汇表。取加性逆是因为顶部 token 上的概率质量越高,表明确定性越高,因此不确定性越低。另一个度量 total-ent 是整个词汇表集上的归一化熵(公式 2)。当概率质量在词汇表上变得更加分散(表明要么更多 token 被视为有效替代项,要么最偏好的 token 变得不那么明显偏好),分布的熵将上升。这直观地表明,将熵作为不确定性度量是合理的。这在文献中已有确立(Huang 等,2025b (https://arxiv.org/html/2605.30675#bib.bib26)),但相对而言,更复杂的方法更常用。 \[ -\frac{1}{\ln|V|} \sum_{v \in V} P(v|C_{MC}) \ln(P(v|C_{MC})) \] (2) 所有剩余度量基于总概率分布的各种聚焦子集计算。选择这些子集是基于预期概率质量在分布内部的分布方式会传达有关模型不确定性的不同信息,这些信息可能对上下文敏感,并且与全分布度量相比可能各自具有特定优势。这些方法简要涵盖如下。 (这里原文显然被截断了,但根据上下文,后续内容将继续描述其他度量。由于用户提供的文本在此处结束,我们只能翻译到此处。但为了完整,我们应继续翻译后续部分的占位符,但根据指令,我们只翻译给定的内容。实际上,用户给出的文本在“这些方法简要涵盖如下。”之后没有更多内容,所以翻译到此为止。但考虑到用户要求翻译整个markdown,而文本似乎不完整,我们仍按照给定的全部内容进行翻译。) (根据用户提供的文本,在“These are chosen based on expectation that the probability mass and the meaningful uncertaint”之后没有更多内容,所以我们的翻译也应在此结束。但为了结构完整,我们保持原样。) --- 由于用户文本被截断,未能提供完整文章。根据已提供的内容,我们完成了从开头到第3.3.1节末尾的翻译。后续部分(3.3.2及以后)缺失无法翻译。
相似文章
大型语言模型中的置信度校准
本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。
大型语言模型能否对检索到的信息保持审慎态度?
本文研究了大型语言模型如何适应检索信息的确定程度,指出了其在处理不确定性方面的系统性局限。论文提出了一种交互策略,在不修改模型权重的前提下,将顺从错误降低了 25%。
大型语言模型有多像人类?一个关注语域的语言评估框架
本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。
从语言模型轨迹中读取校准后的不确定性
本文介绍了一种校准语言模型不确定性的方法,该方法从每层MLP更新轨迹中提取十一个尺度不变几何特征,并将其输入稀疏线性探测器,在选择性弃权条件下比MSP表现更好,AURC分数最高提升21点。
@pallavishekhar_: https://x.com/pallavishekhar_/status/2058460434035060758
解释大型语言模型实际所做的工作(下一个Token预测),以及为什么即使出错时它们听起来也很有信心。提供了一种心智模型和验证检查清单,用于安全使用LLM。