使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性
摘要
本文提出了一种分布对齐对抗性蒸馏(DisAAD)方法,该方法使用一个轻量级代理模型,仅以原始模型1%的规模来估计黑盒大语言模型的不确定性,实现了无需内部参数或多次采样的可靠量化。
arXiv:2605.05777v1 公告类型: new
摘要:大语言模型在复杂推理和问答方面取得了快速进展,但大语言模型幻觉仍然是阻碍实际部署的核心瓶颈,特别是对于仅能通过API访问的商业黑盒大语言模型。现有的不确定性量化方法通常依赖于计算成本高昂的多次采样或内部参数,这阻止了实时估计,也无法捕捉黑盒推理过程中隐含的信息。为解决这一问题,我们提出了分布对齐对抗性蒸馏(DisAAD),该方法引入了一个生成-判别架构,引导一个轻量级代理模型学习黑盒大语言模型输出分布的高质量区域,从而有效地赋予它判断黑盒大语言模型是否知道的能力。随后,我们使用该代理模型重现黑盒大语言模型的特定响应,并基于证据学习估计相应的不确定性。大量实验验证了我们提出方法的有效性和前景,表明即使仅占目标LLM规模1%的代理模型也能实现可靠的不确定性量化。
查看缓存全文
缓存时间: 2026/05/08 06:43
# 基于分布对齐对抗蒸馏的黑盒大模型不确定性估计
来源:https://arxiv.org/html/2605.05777
胡慧子1, 马欢1, 王麒麟2, 高宇航3, 张长青4
1天津大学计算机科学与技术学院,中国
2天津大学未来技术学院,中国
3天津大学佐治亚理工深圳学院,中国
4天津大学人工智能学院,中国
\{huizicui, mahuan520, wangqilin, yuhang\_gao, zhangchangqing\}@tju\.edu\.cn
###### 摘要
大语言模型(LLM)在复杂推理和问答方面取得了快速进展,但幻觉问题仍然是阻碍实际部署的核心瓶颈,尤其对于仅通过API访问的商业黑盒LLM。现有不确定性量化方法通常依赖计算成本高昂的多重采样或内部参数,这阻碍了实时估计,也无法捕捉黑盒推理过程中隐含的信息。为解决此问题,我们提出分布对齐对抗蒸馏(DisAAD),该方法引入生成-判别架构,引导轻量级代理模型学习黑盒LLM输出分布的高质量区域,从而有效赋予其“知道黑盒LLM知道还是不知道”的能力。随后,我们利用代理模型复现黑盒LLM的特定回答,并基于证据学习估计相应的不确定性。大量实验验证了所提出方法的有效性和前景,表明即使代理模型大小仅为目标LLM的1%,也能实现可靠的不确定性量化。我们的模型和相关资源已在 https://github.com/huizi-Cui/DisAAD 发布。
# 基于分布对齐对抗蒸馏的黑盒大模型不确定性估计
胡慧子1, 马欢1, 王麒麟2, 高宇航3, 张长青4††感谢通讯作者。
1天津大学计算机科学与技术学院,中国
2天津大学未来技术学院,中国
3天津大学佐治亚理工深圳学院,中国
4天津大学人工智能学院,中国
\{huizicui, mahuan520, wangqilin, yuhang\_gao, zhangchangqing\}@tju\.edu\.cn
## 1 引言
大语言模型(LLMs)近年来取得了显著进展,在复杂推理和文本生成任务中展现出卓越性能(Kadavath 等, 2022 (https://arxiv.org/html/2605.05777#bib.bib15); Rawte 等, 2023 (https://arxiv.org/html/2605.05777#bib.bib23); Zhang 等, 2025 (https://arxiv.org/html/2605.05777#bib.bib37))。尽管成就斐然,LLMs 仍倾向于生成看似合理但包含非事实或不可靠信息的回答,这一现象被广泛称为 LLM 幻觉(Shah, 2024 (https://arxiv.org/html/2605.05777#bib.bib25); Banerjee 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib4); Tonmoy 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib29))。此外,近期研究进一步表明,更大、更指令化的 LLMs 往往通过假装理解来欺骗用户,制造虚假的自信感,使用户轻易相信其回答(Abbasi Yadkori 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib1); Zhou 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib39); Huang 等, 2025 (https://arxiv.org/html/2605.05777#bib.bib13))。因此,幻觉问题成为 LLMs 广泛应用的重要障碍,尤其在安全关键领域(Chen 等, 2025 (https://arxiv.org/html/2605.05777#bib.bib5); Perković 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib22))。
不确定性量化已成为缓解幻觉带来局限性的有前景途径,它能使 LLMs 在可能生成不可靠回答时表达怀疑(Huang 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib12); Zhang 等, 2023 (https://arxiv.org/html/2605.05777#bib.bib36))。高不确定性表示用户需要谨慎,因为 LLM 可能受幻觉影响而提供不可靠回答。根据计算成本,现有不确定性量化方法可大致分为自评估方法、多样本方法和单样本方法(Xiong 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib33))。自评估方法允许 LLM 通过内部机制或借助额外高级模型评估自身生成回答的置信度(Kadavath 等, 2022 (https://arxiv.org/html/2605.05777#bib.bib15); Kapoor 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib16))。然而,这些方法常常无法产生可信的估计结果,且需要特定的微调干预。多样本方法通过多次参考调用感知可能答案空间内的多样性,利用生成过程中的统计模式识别模型表现出犹豫或不一致的区域(Lakshminarayanan 等, 2017 (https://arxiv.org/html/2605.05777#bib.bib17); Farquhar 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib8))。例如,语义熵通过衡量同一提示生成多个回答之间的一致性来量化 LLM 不确定性,并进一步将那些不一致的输出识别为潜在不可靠信息源(Farquhar 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib8))。尽管多样本方法在理论上有充分依据,但它们面临几个显著问题:(1)无法估计单次回答的不确定性;(2)实际应用中因需要多次采样迭代而效率低下;(3)当模型因知识缺失而一致生成错误答案时,会遗漏固有不确定性。针对上述问题,单样本方法被开发出来,通过访问 LLM 的内部信息(如下一个 token 的概率分布)来估计单个句子的不确定性(Fadeeva 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib7))。LogTokU 是一种代表性方法,通过将 logits 视为 Dirichlet 分布参数来量化 token 级别的不确定性(Ma 等, 2025 (https://arxiv.org/html/2605.05777#bib.bib20))。它提供了数学证据,表明 logits 比最大概率或熵测量能提供更准确的不确定性表示。然而,这些方法不适用于当前实际应用中仍占主导地位的闭源 LLM,如 GPT-4 和 Claude-3(Sriramanan 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib26))。由于这些 LLM 不提供对其内部机制和参数状态的完全访问,一个根本问题随之产生:**仅基于单次回答,我们能在多大程度上预测黑盒 LLM 的实时不确定性?** 近期研究表明,小型 LLM 通常拒绝回答困难问题,反映出对其知识局限性的更好认知。相比之下,更大、更指令化的 LLM(如 GPT-4)更频繁地给出看似合理但实际错误的回答,使用户容易忽视(Zhou 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib39); Steyvers 等, 2025 (https://arxiv.org/html/2605.05777#bib.bib27))。由于简单 LLM 更可靠,一个自然的想法浮现:利用更小的 LLM 来估计黑盒 LLM 的不确定性。为实现这一目标,我们提出了一种新颖的分布对齐对抗蒸馏方法(DisAAD),它引入一个小型代理模型来学习“知道黑盒 LLM 知道还是不知道”,并使其能够在下游任务中指导目标 LLM 的不确定性量化。具体来说,我们首先系统收集目标黑盒 LLM 在各种提示下的输出,创建全面的蒸馏数据集(Zeng 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib35))。然后,在生成-判别架构中对代理模型进行专门优化,使其逼近目标输出分布的高概率区域。得益于对抗蒸馏,我们进一步利用蒸馏后的代理模型复现黑盒 LLM 的回答,并通过证据深度学习估计实时不确定性(Sensoy 等, 2018 (https://arxiv.org/html/2605.05777#bib.bib24))。大量实验验证了所提出方法在各种问答任务中的有效性,即使代理模型大小仅为目标模型大小的1%,也能实现优越的回答可靠性估计性能。我们的主要贡献总结如下:(1)我们提出了一种估计黑盒 LLM 不确定性的新范式,不仅无需访问模型状态,也免除了多次回答采样的需求。(2)我们提出了一种新方法,使代理模型能够逼近目标输出分布的高概率区域,从而描述黑盒 LLM 的不确定性。(3)通过广泛实验和理论分析,我们验证了所提方法在检测 LLM 幻觉方面的有效性,在黑盒设定下以 AUROC 平均提升18.2%和 AUPR 平均提升22.9%的性能优于最强基线。
## 2 相关工作
### 2.1 多样本方法
多样本方法通过衡量同一提示下多个回答之间的语义一致性来评估不确定性。例如,语义熵基于语义等价性将采样回答分组,计算语义簇分布上的熵(Farquhar 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib8))。EigV 使用基于图的计算来量化存在多少个不同的相似答案组,从而有效识别不同的语义簇(Lin 等, 2023 (https://arxiv.org/html/2605.05777#bib.bib19))。此外,近期研究通过整合模型内部置信度进一步推进了该方法。CoCoA 将模型对特定回答的置信度与其他样本的平均语义不一致性相乘来计算 LLM 不确定性(Vashurin 等, 2025 (https://arxiv.org/html/2605.05777#bib.bib31))。类似地,SAR 结合了句子级语义相关性与 token 级概率调整,构建了一种混合度量,以实现更细粒度的不确定性平衡(Duan 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib6))。
### 2.2 单样本方法
单样本方法通常利用 token 概率、logits 或隐藏层激活来实现 LLM 不确定性量化,无需额外采样。相关工作包括困惑度、负序列概率和平均 token 熵(Fomicheva 等, 2020 (https://arxiv.org/html/2605.05777#bib.bib9)),以及考虑语义重要性的更先进技术。例如,CCP 通过分析每个步骤候选 token 分布中的语义关系来分离事实不确定性(Fadeeva 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib7))。Focus 使用代理模型基于语义属性(如关键词重要性和实体类型)重新加权 token 级不确定性(Zhang 等, 2023 (https://arxiv.org/html/2605.05777#bib.bib36))。近期研究表明,与归一化概率相比,logits 能更直接地洞察模型置信度,由此产生了 LogTokU(Ma 等, 2025 (https://arxiv.org/html/2605.05777#bib.bib20)),该方法将 logits 视为 Dirichlet 分布参数(Abdar 等, 2021 (https://arxiv.org/html/2605.05777#bib.bib2))。
## 3 方法
### 3.1 符号说明
给定一个白盒 LLM \( \mathcal{M}_{\text{W}} \) 及其词汇表 \( \mathcal{V} \),我们形式化下一个 token 的预测过程。输入提示被 token 化为序列 \( \bm{x} = (x_1, \dots, x_L) \)。模型自回归生成回答 \( \bm{y} = (y_1, \dots, y_T) \)。在每一步 \( t \),\( \mathcal{M}_{\text{W}} \) 处理上下文,该上下文由提示 \( \bm{x} \) 和先前生成的 token \( \bm{y}_{ < t} = (y_1, \dots, y_{t-1}) \) 组成。在处理过程中,第 \( t-1 \) 个隐藏状态 \( \bm{h}_{t-1} \) 被提取并用于生成逻辑值 \( \bm{l}_t \in \mathbb{R}^{|\mathcal{V}|} \)。然后,逻辑值通过 softmax 函数转换为概率分布 \( p_t = \text{softmax}(\bm{l}_t) \)。在不确定性量化中,白盒方法可以使用每个 \( t \) 时的中间隐藏状态 \( \bm{h}_t \) 或概率值 \( p_t \)。然而,对于黑盒 LLM \( \mathcal{M}_{\text{B}} \),这些内部细节是无法获取的。我们只能观察到最终生成的回答序列 \( \bm{y}_{\text{B}} \)。
### 3.2 概述
在本节中,我们介绍所提出的方法 DisAAD,其核心思想是训练一个轻量级代理模型,使其能够逼近目标黑盒 LLM 的输出分布,从而使其具备“知道黑盒 LLM 知道还是不知道”的能力。如图 1 所示,DisAAD 遵循一个两阶段范式。在第一阶段,我们收集目标黑盒 LLM 在各种提示下的输出,并构建一个蒸馏数据集。然后,我们在一个生成-判别架构中训练代理模型 \( \mathcal{M}_{\text{P}} \),以最小化其与黑盒 LLM 输出分布之间的差异。在第二阶段,蒸馏后的代理模型被用于复现目标 LLM 的回答,同时我们利用基于证据学习的方法进行不确定性量化。
**图 1:** DisAAD 框架概述。第一阶段通过分布对齐对抗蒸馏训练代理模型;第二阶段利用蒸馏后的代理模型进行回答复现和证据不确定性量化。
### 3.3 第一阶段:分布对齐对抗蒸馏
我们的第一阶段旨在训练代理模型 \( \mathcal{M}_{\text{P}} \),以准确模拟目标黑盒 LLM 的单步 token 预测分布。一个直接的解决方案是使用标准的序列级知识蒸馏(Hinton 等, 2015 (https://arxiv.org/html/2605.05777#bib.bib11)),通过最小化代理模型与目标模型在输出 token 概率上的 KL 散度。然而,只关注 token 级对齐而不考虑完整序列的语义会产生两个问题。首先,它鼓励代理模型在每一步盲目模仿 token 概率,忽略了序列整体的语义一致性。其次,它没有利用判别性反馈来生成更具区分性的序列表示,从而减弱了代理模型捕捉目标 LLM 内部不确定性的能力。受生成对抗网络(Goodfellow 等, 2014 (https://arxiv.org/html/2605.05777#bib.bib10))的启发,我们引入一个判别器 \( \mathcal{D} \) 来区分代理模型生成的序列和目标 LLM 生成的序列。这促使代理模型生成与目标模型在序列级别不可区分的输出。蒸馏损失 \( \mathcal{L}_{\text{dis}} \) 定义为:
\[
\mathcal{L}_{\text{dis}}(\theta, \phi) = \mathcal{L}_{\text{task}}(\theta) + \lambda \mathcal{L}_{\text{reg}}(\theta, \phi)
\]
其中 \( \lambda > 0 \) 是正则化系数。该损失由两部分组成:
- **任务损失** \( \mathcal{L}_{\text{task}} \):一个标准蒸馏损失,在 token 级别上使代理模型的输出与黑盒模型对齐。
- **正则化损失** \( \mathcal{L}_{\text{reg}} \):一个序列级对齐约束,通过判别器强制代理模型的输出与黑盒模型不可区分。
**Token 级蒸馏损失(更新 \( \mathcal{M}_{\text{P}} \))**。我们采用下一个 token 预测损失来鼓励代理模型模仿黑盒 LLM 的输出。给定一个包含 \( N \) 个提示 \( \{\bm{x}^{(i)}\}_{i=1}^N \) 的数据集,每个提示对应从黑盒模型采样的 \( M \) 个回答 \( \{\bm{y}_{\text{B}}^{(i,j)}\}_{j=1}^M \),任务损失定义为:
\[
\mathcal{L}_{\text{task}}(\theta) = -\frac{1}{NM} \sum_{i=1}^N \sum_{j=1}^M \sum_{t=l(\bm{x}^{(i)})+1}^{l(\bm{x}^{(i)})+l(\bm{y}_{\text{B}}^{(i,j)})} \log P_\theta(y_t \mid \bm{y}_{< t}, \bm{x}^{(i)})
\]
其中 \( l(\cdot) \) 表示序列长度,\( P_\theta \) 是代理模型参数化的概率(有关该公式的详细解释见附录 A.1)。
**序列级对抗损失(交替更新 \( \mathcal{M}_{\text{P}} \) 和 \( \mathcal{D} \))**。为了最小化分布差异,我们引入一个判别器 \( \mathcal{D} \)(由 \( \phi \) 参数化),用于区分代理模型生成的序列和目标黑盒 LLM 生成的序列。特别是,判别器的目标是最大化其正确分类的能力,而代理模型旨在最小化判别器的准确性。我们采用标准二进制交叉熵损失来评估判别器区分序列来源的能力:
\[
\mathcal{L}_{\text{reg}}(\theta, \phi) = -\mathbb{E}_{\bm{y}_{\text{B}} \sim \mathcal{M}_{\text{B}}} [\log \mathcal{D}_\phi(\bm{y}_{\text{B}})] - \mathbb{E}_{\bm{y}_{\text{P}} \sim \mathcal{M}_{\text{P}}} [\log(1 - \mathcal{D}_\phi(\bm{y}_{\text{P}}))]
\]
其中 \( \bm{y}_{\text{P}} \) 是由当前代理模型生成的序列。判别器 \( \mathcal{D}_\phi \) 输出序列来自黑盒模型的概率。\( \mathcal{L}_{\text{reg}} \) 中的最小化项促使代理模型生成足够逼真的序列,以混淆判别器,从而在句子级别对齐两个分布。判别器参数 \( \phi \) 通过最大化相同的损失函数来更新,以保持区分能力。
### 3.4 第二阶段:基于蒸馏代理模型的证据不确定性估计
在完成第一阶段后,我们得到一个紧凑的代理模型 \( \mathcal{M}_{\text{P}} \),该模型近似于黑盒 LLM 的输出分布。通过利用相似的知识边界,代理模型以可衡量的方式反映了黑盒模型的内部状态。因此,我们通过估计代理模型自身的不确定性来推断黑盒 LLM 的不确定性。受证据深度学习(Sensoy 等, 2018 (https://arxiv.org/html/2605.05777#bib.bib24))的启发,我们通过将代理模型的 logits 参数化为 Dirichlet 分布来量化不确定性。具体来说,对于代理模型生成的每个 token,其 logits 被视为 Dirichlet 分布的证据参数,并据此计算不确定性。最终回答层面的不确定性分数通过对所有 token 的不确定性进行聚合得到。
## 4 实验
### 4.1 数据集与模型
**数据集。** 我们在三个问答数据集上评估所提出的方法:TriviaQA(Joshi 等, 2017 (https://arxiv.org/html/2605.05777#bib.bib14))、CoQA(Reddy 等, 2019 (https://arxiv.org/html/2605.05777#bib.bib29))和 SQuAD(Rajpurkar 等, 2016 (https://arxiv.org/html/2605.05777#bib.bib23))。这些数据集涵盖了不同的领域,包括常识推理、对话理解和阅读理解。
**目标黑盒 LLM。** 我们选择 GPT-4(OpenAI, 2023 (https://arxiv.org/html/2605.05777#bib.bib21))和 Claude-3(Anthropic, 2024 (https://arxiv.org/html/2605.05777#bib.bib2))作为代表性的黑盒 LLM,因为它们通过 API 广泛使用且不提供内部访问。
**代理模型架构。** 我们使用 LLaMA-7B(Touvron 等, 2023 (https://arxiv.org/html/2605.05777#bib.bib28))作为代理模型,并通过 LoRA(Hu 等, 2021 (https://arxiv.org/html/2605.05777#bib.bib12))进行微调。为了展示可扩展性,我们还对 LLaMA-13B 和更小的模型(如 GPT-2)进行了实验。
### 4.2 实验设定
**评估指标。** 我们使用 AUROC、AUPR 和期望校准误差(ECE)来评估不确定性估计的性能。具体来说,对于每个问题,我们计算模型产生正确和错误回答的概率。回答的正确性通过两种方式确定:(1)基于字符串精确匹配的正确答案;(2)基于 LLM 判断的正确性,其中如果 LLM 判断“正确”的概率大于 0.5 或“LLM-Judge=1”则视为正确(Xiong 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib33))。性能通过 AUROC、AUPR 和 ECE 进行量化。更多细节请参见附录 D.1。
#### 4.2.1 基线方法
我们将所提出方法与几种 SOTA 黑盒 LLM 不确定性量化方法进行比较,包括语义熵(SE)和离散语义熵(DSE)(Farquhar 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib8))、LN-熵(LNE)(Malinin and Gales, 2020 (https://arxiv.org/html/2605.05777#bib.bib21))、词汇相似度(LeS)(Lin 等, 2023 (https://arxiv.org/html/2605.05777#bib.bib19))和 EigV(Zhou 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib39))。此外,为了展示我们的工作无需访问 LLM 内部状态也能提供有竞争力的性能,一些白盒方法(包括基于概率的方法、基于熵的方法和 LogTokU(Ma 等, 2025 (https://arxiv.org/html/2605.05777#bib.bib20); Xiong 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib33)))也用于对比分析。
### 4.3 蒸馏数据集收集
我们通过混合一半领域内评估提示和一半领域外对话提示来构建蒸馏集,以平衡领域相关性和泛化能力。对于每个提示,我们从目标 LLM 中抽取 10 个高质量候选回答。DisAAD 仅使用 1K 蒸馏样本(100 个提示)即可产生一个有效且计算高效的代理模型。更多信息请参见附录 C.1 和 D.5。
### 4.4 模型训练
对于生成器(代理模型),我们采用 LLaMA 系列模型(Zheng 等, 2024 (https://arxiv.org/html/2605.05777#bib.bib38)),通过低秩自适应(LoRA)进行微调,rank=32,alpha=64,dropout=0.1。遵循 LLaMA 架构,我们针对所有注意力层和前馈投影层(“q_proj”、“v_proj”、“k_proj”、“o_proj”、“gate_proj”、“down_proj”、“up_proj”)。模型通过 AdamW 优化,学习率在训练期间为 1×10⁻⁴。对于判别器相似文章
黑盒LLM蒸馏的有界行为不可区分性
本文提出有界行为不可区分性,一种超越语义相似性的黑盒LLM蒸馏评估形式化框架。在Qwen和Llama模型上的实验表明,蒸馏降低了但并未消除对抗性可区分性,凸显了类别感知评估的必要性。
大型语言扩散模型的不确定性量化
本文首次系统研究了大型语言扩散模型(LLDMs)的不确定性量化(UQ),提出了从迭代去噪过程中衍生的轻量级零样本不确定性信号,并表明LLDMs能够在实现快速推理的同时,提供可靠的幻觉检测,与基于采样的基线方法相比,计算开销降低高达100倍。
面向可靠LLM判断的边际自适应置信度排序
本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。
通过强化学习将分布感知注入多模态大语言模型以应对深度不平衡回归
本文介绍了一种分布感知的强化学习框架,该框架利用基于批级比较的监督信号,提升了多模态大语言模型在长尾数值回归任务中的性能。
在策略自蒸馏中尊重自不确定性以实现高效LLM推理
本文提出了EGRSD和CL-EGRSD,这是在策略自蒸馏方法,通过教师熵对令牌级监督进行加权,以改善大语言模型推理准确性-长度的权衡,并在Qwen3-4B和Qwen3-8B上进行了评估。