面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG 2026/05/18 04:00 论文

llm-evaluation confidence-estimation ranking generalization hypothesis-testing machine-learning

摘要

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法，通过学习专用估计器来确保置信度与人类分歧风险之间的单调性，具有泛化保证，并在多个数据集上提高了排序准确性。

arXiv:2605.15416v1 公告类型：新摘要：Jung等人（2025）引入了一个假设检验框架，用于保证大型语言模型（LLM）与人类判断之间的一致性，该框架依赖于模型估计的置信度相对于人类分歧风险是单调的这一假设。然而在实践中，这一假设可能被违反，并且置信度估计器的泛化行为并未得到明确分析。我们通过学习一个专用的置信度估计器来解决这些问题，而不是依赖启发式的置信度信号。我们的方法利用模拟的标注者多样性和基于边际的排序公式，明确建模LLM如何自信地区分人类一致和人类分歧的情况。我们进一步推导了该估计器的泛化保证，揭示了与边际相关的权衡，这为自适应估计器训练过程的设计提供了信息。当集成到固定序列测试中时，学习到的置信度估计器提高了排序准确性，并在经验上增强了置信度与分歧风险之间的单调关系，从而在多个数据集和评判模型上实现了更高的满足目标一致性水平的成功率。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:41

# 面向可靠LLM评判的边际自适应置信度排序 来源: https://arxiv.org/html/2605.15416 ###### 摘要 Junget al. (2025)（https://arxiv.org/html/2605.15416#bib.bib16）提出了一种假设检验框架，用于保证大语言模型（LLM）与人类判断之间的一致性，其核心假设是模型估计的置信度与人类分歧风险呈单调关系。然而在实践中，这一假设可能被违反，且置信度估计器的泛化行为并未得到明确分析。我们通过学习一个专用的置信度估计器来缓解这些问题，而非依赖启发式置信度信号。我们的方法利用模拟标注者多样性和基于边际的排序公式，明确建模LLM如何自信地区分人类一致与人类分歧案例。我们进一步推导了该估计器的泛化保证，揭示了边际相关的权衡关系，这为自适应估计器训练过程的设计提供了指导。当集成到固定序列检验中时，学习到的置信度估计器在多个数据集和评判模型上提高了排序准确性，并经验性地增强了置信度与分歧风险之间的单调关系，从而在满足目标一致性水平方面取得了更高的成功率。 机器学习，ICML ## 1 引言 大语言模型越来越多地被用作评估器，以判断输出质量和偏好对齐（Zheng et al., 2023（https://arxiv.org/html/2605.15416#bib.bib3）; Dubois et al., 2023（https://arxiv.org/html/2605.15416#bib.bib5）; Park et al., 2025（https://arxiv.org/html/2605.15416#bib.bib120）; Chiang and Lee, 2023（https://arxiv.org/html/2605.15416#bib.bib118））。虽然这提供了可扩展、低成本的人工标注替代方案，但一个根本性挑战仍然存在（Xiong et al., 2024（https://arxiv.org/html/2605.15416#bib.bib119））：我们如何让LLM作为评判者的决策在下游使用中变得可靠可信，尤其是当评判者报告高置信度时？近期已有原则性方法被提出，用于提高LLM作为评判者系统的可靠性。例如，Yadkori et al.（2024（https://arxiv.org/html/2605.15416#bib.bib18））引入了共形弃权机制，以更好地对齐LLM判断与人类评估；而Mohri and Hashimoto（2024（https://arxiv.org/html/2605.15416#bib.bib17））则使用共形预测提供高概率的正确性保证。基于这些思路，Junget al.（2025（https://arxiv.org/html/2605.15416#bib.bib16））开发了一种无监督置信度估计器，并推导了在给定校准集条件下分歧风险的精确上界。此类置信度阈值化过程的一个关键假设是单调性：估计置信度越高的实例，其与人类判断的分歧风险应越低。然而，近期实验发现表明，这一假设在实践中可能被违反，即置信度估计可能与人类主观性存在校准偏差（如图1（https://arxiv.org/html/2605.15416#S1.F1）和图3（https://arxiv.org/html/2605.15416#S5.F3）所示）。此外，虽然先前的工作提供了基于校准样本的保证，但置信度估计器本身的泛化行为并未得到明确分析，这留下了以下问题：置信度排序在样本外是否仍然可靠？这促使我们采用如下视角：与其假设LLM的原生置信度是可靠的，我们学习一个专用的置信度估计器，旨在诱导一种能够泛化到校准集之外的排序。我们将置信度视为实例上的排序函数，并通过基于边际的排序损失进行优化，该损失对错误排序的一致/分歧对进行惩罚。为证明此公式的合理性，我们推导了误排序概率的PAC-贝叶斯泛化界，该上界由经验边际排序损失和边际相关的复杂度项控制。 ###### 定理1.1（非正式表述）。 给定一个参数化的置信度估计器和一个边际γ，其期望排序损失由经验边际排序损失和边际相关的复杂度项界定，即： 期望排序损失 ≤ 经验边际排序损失 + 边际相关复杂度项。 参见说明 图1：使用GPT-4作为评判者时估计置信度与人类-LLM一致率的散点图：（左）基于预测概率的估计器；（右）基于模拟标注者的估计器。结果展示在Junget al.（2025（https://arxiv.org/html/2605.15416#bib.bib16））的数据集（浅蓝色）和AlpacaEval（Li et al., 2023（https://arxiv.org/html/2605.15416#bib.bib121））的额外500个示例（橙色）上。水平轴表示估计的LLM置信度分箱，垂直轴表示每个分箱的人类-LLM一致率。实验结果表明，对于这两种方法，人类-LLM一致率并不一定随着估计置信度的提高而增加。 这一分析揭示了一个权衡：较大的边际鼓励更强的分离，但增加了复杂度惩罚；较小的边际降低了惩罚，但削弱了分离。受此界的指导，我们开发了一种边际自适应训练过程，通过平衡经验排序损失与复杂度项的可微分近似，同时优化估计器及其有效边际。 优化器1.2（非正式表述）。 *设θ为置信度估计器参数，γ为边际，β为超参数，则通过以下方式优化估计器：* min_θ min_γ [经验边际排序损失 + β·边际相关复杂度项]。 实验表明，与常用的置信度启发式方法相比，所提出的估计器提高了排序质量。重要的是，这些改进转化为经验上更强的选择性分歧风险的单调行为，这反过来在固定序列检验流程中实现了更高的目标一致性水平满足成功率，同时保持了具有竞争力的覆盖率。我们强调，我们的理论结果为置信度排序行为的泛化提供了保证，并且我们的实验表明，改进的排序泛化可以在实践中减少单调性违反。总结来说，本文的贡献如下： - ⋆ 置信度排序框架。 我们提出通过基于边际的排序目标学习一个参数化的LLM判断置信度估计器，旨在获得可泛化的排序，而非依赖启发式置信度分数。 - ⋆ 理论分析。 我们为估计器的样本外误排序概率开发了PAC-贝叶斯泛化界，揭示了边际相关的损失-复杂度权衡。 - ⋆ 优化器与实验。 在理论洞见的指导下，我们引入了一种边际自适应训练过程，并在级联选择性评估中，跨数据集和评判模型展示了改进的排序准确性和更高的目标一致性水平满足成功率。 ## 2 预备知识 设f_LM: X → Y 表示一个LLM评判者，其中每个输入x ∈ X 包含一个查询和一对候选回复 (r1, r2)，输出y ∈ Y 表示在r1和r2之间的偏好判断（例如 r1 ≻ r2）。设D 表示X × Y上的潜在联合分布，该分布固定但未知。给定一个校准数据集S_cal = {(x_i, y_i)}_{i=1}^m，其中每个样本(x_i, y_i) 表示一个查询-回复对及其对应的人类偏好标签，现有校准方法通常假设样本是从D中独立同分布抽取的。 Junget al.（2025（https://arxiv.org/html/2605.15416#bib.bib16））引入了模拟标注者，这是一种通过上下文学习来近似多样模拟人类标注偏好的置信度估计器。具体来说，给定每位N个人类标注者的K个带偏好标签示例，他们通过进行N次K-shot提示并集成所得预测来模拟标注者行为： C_LM(x) = max_i (1/N) ∑_{j=1}^N P_LM(r_i | x; (x^anno_{1,j}, y^anno_{1,j}), ..., (x^anno_{K,j}, y^anno_{K,j})), 其中P_LM(r_i | x; ...) 表示f_LM分配给候选回复r_i的预测概率，(x^anno_{i,j}, y^anno_{i,j}) 表示第j个模拟人类标注者的第i个带偏好标签示例。 接着，令S_λ := {(x,y) ∈ S_cal | C_LM(x) ≥ λ} 表示LLM置信度分数高于阈值λ的校准样本子集，定义在S_λ上的经验风险为： R̂(λ) := (1/|S_λ|) ∑_{(x,y)∈S_λ} 1{f_LM(x) ≠ y}. (2) 对应于置信度阈值λ以上样本的总体风险定义为： R(λ) := E_{(x,y)∼D} 1{f_LM(x) ≠ y | C_LM(x) ≥ λ}. 由于经验风险服从以|S_λ|为试验次数的二项分布，Junget al.（2025（https://arxiv.org/html/2605.15416#bib.bib16））计算了精确的(1-δ) 上置信界为： R̂⁺(λ) := sup{R : P(Bin(|S_λ|, R) ≤ ⌈|S_λ|R̂(λ)⌉) ≥ δ}. (3) Junget al.（2025（https://arxiv.org/html/2605.15416#bib.bib16））假设风险函数在λ上近似单调；具体而言，随着λ减小，风险倾向于增加（单调性假设）。该假设使得固定序列检验（Bauer, 1991（https://arxiv.org/html/2605.15416#bib.bib19））得以使用，即从最大的λ（例如0.999）开始测试，并通过递减序列进行，直到R̂⁺(λ) 仍低于目标风险水平α的最终值。形式上，所选阈值为： λ̂ = inf {λ : 对于所有λ′ ≥ λ，R̂⁺(λ′) ≤ α}. (4) 于是，他们得到如下保证。 ###### 定理 2.1（Junget al.（2025（https://arxiv.org/html/2605.15416#bib.bib16）））。 考虑如上所选阈值λ̂，以及基于λ̂运行的选择性评估器(f_LM, C_LM)。那么，至少有1-δ的概率， P(f_LM(x)=y | C_LM(x) ≥ λ) ≥ 1-α. (5) ## 3 置信度排序的理论分析 ### 3.1 问题形式化 问题。 Junget al.（2025（https://arxiv.org/html/2605.15416#bib.bib16））假设选择性人类分歧风险在置信度阈值λ上近似单调，即风险倾向于随λ减小而增加。然而，这一单调性条件主要是经验性的，并未得到关于置信度估计器如何泛化到校准数据之外的正式分析的支持。因此，将单调性视为给定条件，在选择性评估中引入了结构性脆弱性。 - • 校准偏差。 如果估计器存在校准偏差，则其引发的实例排序可能不可靠，导致选择性风险曲线违反预期的单调行为。更广泛地说，估计器的样本外行为并未得到明确刻画。 - • 跨任务泛化。 在具有任务特定校准集的异构多任务设置中，单一的置信度估计器可能无法一致地迁移，使得跨任务和领域维持稳定性能变得困难。 为缓解这些问题，我们引入了一个参数化的置信度估计器，并通过PAC-贝叶斯排序框架对其进行分析，该框架界定了其期望的误排序误差。这为置信度诱导排序的泛化提供了一种原则性的推理方式，并在实践中经验性地减少了单调性违反。 参见说明 图2：伯努利模拟研究（10,000次试验）：增加噪声（从而增加误排序）持续增加排序损失和单调性违反率，表明在优化过程中减少排序误差也会改善单调性。详情见附录D.1（https://arxiv.org/html/2605.15416#A4.SS1）。 参数化估计器设定。 给定一个实例-标签对(x,y) 和LLM f_LM，令a(x) ∈ {0,1} 表示模型预测是否与人工标注一致，即若f_LM(x)=y则a(x)=1，否则a(x)=0。遵循Junget al.（2025（https://arxiv.org/html/2605.15416#bib.bib16））的设置，对于每个实例(x,y)，我们假设可以访问N个模拟人类标注者中每个标注者的K个带偏好标签示例。对于模拟标注者j ∈ [N]，将这些示例记为 {(x^anno_{1,j}, y^anno_{1,j}), ..., (x^anno_{K,j}, y^anno_{K,j})}. 我们将所有可能的k-shot上下文子集的集合定义为 T = \bigcup_{j∈[N]} { t ⊆ {(x^anno_{i,j}, y^anno_{i,j})}_{i=1}^K | 1 ≤ |t| ≤ K }, (6) 其中每个元素t ∈ T 代表用于条件化LLM评判者的一组不同的演示。对于任意t ∈ T，令P_LM(r1|x; t) 表示f_LM在给定上下文示例t时分配给候选回复r1的预测概率。我们将这些概率收集到一个特征向量中： s = (P_LM(r1|x; t1), ..., P_LM(r1|x; t_{|T|})), (7) 其中t_i ∈ T。对于给定的x、f_LM和对应的s，我们考虑一个由θ参数化的置信度估计器C_θ(s): R^{|T|} → [0,1]，通常实例化为一个神经网络（例如MLP，多层感知机），该网络映射...

面向可靠LLM判断的边际自适应置信度排序

相似文章

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性

一种更优的识别大语言模型过度自信的方法

MM-JudgeBias：评测 MLLM-as-a-Judge 组合偏差的基准

评判电路

提交意见反馈