校准偏好学习:以标签排序为例

arXiv cs.LG 论文

摘要

本文形式化了概率标签排序的校准定义,引入了校准概念的层次结构,并表明常见模型校准不佳。进一步展示了在RLHF奖励模型中的应用,其中校准与准确性相关但不完全相同。

arXiv:2605.30447v1 公告类型:新 摘要:校准,即预测概率与真实结果频率的对齐,对于可靠决策至关重要。尽管在分类和回归中已有广泛研究,但概率标签排序(目标是预测标签集排序上的分布)的校准尚未被正式处理。简单地将排序视为类别会忽略其结构,并无法捕捉重要模态,如成对和top-k预测。我们形式化了标签排序的校准,并发展了一个涵盖完整排序、子排序和top-k排序的概念层次。我们证明完整排序校准蕴含其他校准,但反之不成立,且子排序和top-k校准不可比。实验发现,流行的标签排序模型通常校准不佳,子排序和top-k指标之间存在显著差异。将我们的框架应用于RLHF奖励模型,发现校准与基准准确性强相关但不完全一致,表明它捕捉了超越top-1准确性的有意义的质量维度。这些发现激励未来研究理解误校准的下游效应并开发校正方法。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:24

# 校准偏好学习:标签排序案例

**来源:** https://arxiv.org/html/2605.30447

**Viktor Bengs** · **Timo Kaufmann** · **Sebastian J. Vollmer** · **Eyke Hüllermeier**

###### 摘要

校准,即预测概率与真实结果频率的对齐,对于可靠的决策制定至关重要。虽然在分类和回归中已被广泛研究,但校准问题尚未在概率标签排序领域得到正式解决,该领域的目标是预测标签集排序上的分布。简单地将排序视为类别会忽略其结构,且无法捕捉成对排序和top-k预测等重要模态。我们形式化定义了标签排序中的校准概念,并构建了一个涵盖完整排序、子排序和top-k排序的层级体系。我们证明了完整排序校准蕴含其他校准,但反之不成立,且子排序校准与top-k校准不可比较。实验发现,流行的标签排序模型往往校准不佳,子排序指标与top-k指标存在显著差异。将我们的框架应用于RLHF奖励模型,我们发现校准与基准准确率高度相关但不完全一致,这表明校准捕捉了超越top-1准确率的有意义的质量维度。这些发现激励未来研究理解错误校准的下游影响并开发纠正方法。

**机器学习,ICML**

## 1 引言

概率标签排序(ProLR)对给定上下文下项目集合的可能排序上的概率分布进行建模,同时捕捉每个潜在排序的概率和确定性(Cheng.2010;Cheng.2009)。为使此类预测可信,模型必须经过*校准*:预测概率应与真实结果频率一致(Filho.2023)。虽然校准已在分类(Vaicenavicius.2019)、回归(Song.2019)和推荐系统(DaSilva.2025)中得到广泛研究,但排序上分布的校准仍未被探索。一个重要的应用是基于人类反馈的强化学习(RLHF)(Ouyang.2022),其通过学习潜在偏好结构的奖励模型,使大语言模型与人类偏好对齐。RLHF中的对齐过程依赖于成对偏好,而这正是标签排序中完整排序的子结构(Wirth.2017)。

标签排序旨在预测给定上下文下项目集合的完整排序(Furnkranz.2008;Hullermeier.2008)。与仅预测最可能排序的标准标签排序(Vembu.2010)不同,ProLR揭示了排序上的分布。而该信息只有在校准良好的情况下才能可靠地用于下游决策(Filho.2023)。特别是,校准确保表达的不确定性反映真实结果的变异性,这对于需要区分共识与争论的多元对齐至关重要。在排序相关的场景如推荐系统(DaSilva.2025)中,校准被视为将预测的项目分数与用户潜在分数对齐。这些基于分数的校准方法(Yan.2022;Sculley.2010)旨在对齐分数,使其正确反映用户对某个待排序项目的偏好程度。另一条研究路线通过一个枢轴点定义校准,该点区分排序中相关与不相关的项目(Furnkranz.2008)。相比之下,如ProLR所要求的那样,将预测分布与潜在排序分布对齐,仍未得到探索。

通过将标签排序问题视为多类分类问题,并将每个排序视为一个类别,可以轻松获得一个校准概念。然而,由此产生的校准概念在实际应用中有一些缺点。首先,存在阶乘数量的(排序)类别,这使得即使对于中等数量的标签,这种校准的定量测量在计算上也很困难。更复杂的是,通常情况下,观察到的排序仅反映所有可能结果中的极小一部分。此外,排序空间的度量结构在简单的多类分类校准概念中未被反映。例如,排序i1≻i2≻i3和i1≻i3≻i2都共享公共子排序i1≻i2,因此前者的校准可能蕴含后者的校准(见第4节),这在朴素的分类视角中未被体现。最后,实际应用中的重要模态,包括成对排序和top-k排序,未被考虑。

**全排序校准**(定义1)
**逐排序校准**(定义2)
**子-k校准**(定义4)
**Top-k校准**(定义5)
**逐排序子-k校准**(定义6)
**逐排序Top-k校准**(定义7)
**子-k族**
**Top-k族**
定理4.1
定理4.2 (i)
定理4.2 (ii)
定理4.3 (i)
定理4.3 (ii)

**图1:** 校准定义及其关系概览(箭头表示蕴含关系,虚线仅对特定模型类成立)。排除结果见图LABEL:fig:overview_exclusive_figure。

因此,我们引入ProLR中的校准概念,捕捉不同粒度下的校准,从整个项目集上的校准到选定子集上的校准。基于多类分类中强校准和弱校准两种形式,我们为ProLR构建了校准概念的层级体系。我们在理论上研究了这些概念之间的关系,表明子项目上的校准并不蕴含所有项目上的校准。

#### 贡献。
我们的主要贡献如下:

1. **标签排序中的校准:** 我们引入了针对概率标签排序的校准概念,超越了将标签排序视为多类分类问题所能捕捉的范围。
2. **统一的理论框架(图1和图LABEL:fig:overview_exclusive_figure):** 我们建立了所提校准概念之间的理论关系,表明子排序上的校准并不蕴含全排序上的校准,即使对于广泛使用的Plackett–Luce和Mallows模型也是如此。
3. **实证研究:** 我们实证评估了流行标签排序学习器的校准性质,展示了子排序与全排序校准之间的差异。我们还研究了流行RLHF基准中奖励模型的校准。

## 2 相关工作

#### 概率校准
关于多类校准的先前工作建立了一个日益增强的概念层级,从仅对最可能类别的校准(Guo.2017),通过*类别校准*(Zadrozny.2001)(其分解为一对多二元任务),到*多类校准*(Widmann.2019)(要求所有类别上的校准分布)。该层级已扩展到回归(Song.2019;Widmann.2021)和基于集合的概率分类器(Mortier.2023;Juergens.2025)。我们的工作为标签排序场景引入了类似的校准概念层级,并额外考虑了成对和top-k校准等特殊情况。校准已在流行的机器学习算法中得到研究,例如决策树(Zadrozny.2001)、随机森林(Shaker.2025)和神经网络(Mukhoti.2020;Wang.2023)。与此一致,我们研究了流行排序模型如Plackett–Luce和Mallows模型的校准,表明它们对于大项目集往往校准不佳。关于校准方法的广泛概述,请参阅Filho.2023和Lane.2025的综述。

#### 标签排序与校准
偏好学习领域对LLM的崛起做出了重要贡献,特别是在其微调方面(Ouyang.2022;Kaufmann.2025)。这一发展伴随着偏好学习子领域(如标签排序)的新研究刺激。新的学习方法(korba2018structured;adam_inferring_2024;Thies.2024;zhou_heuristic_2024)以及标准设置的扩展已被引入,例如部分标签排序(alfaro_learning_2021;alfaro_pairwise_2023)或二元组排序(schafer2018dyad)问题。进一步的工作改进了概率排序模型的推理,例如流行的Mallow模型(Kenig.2018;Ping.2020)。然而令人惊讶的是,校准概念在标签排序中完全被忽视,尽管(i)校准对于机器学习中不确定性量化这一新兴主题特别重要(Huellermeir.2021),且(ii)良好校准的标签排序模型可能是捕捉标注者差异并训练反映这些细微差别模型的有用工具。

#### 其他偏好学习场景中的校准
与ProLR不同,其他基于排序的领域(特别是推荐系统)中的校准已获得相当多的关注。需要注意的是,在该领域中,校准指的是将预测分数与用户潜在潜在分数对齐。而在ProLR中,我们考虑将概率估计与数据生成过程的真实概率对齐。Sculley.2010首次考虑与准确排序预测同时存在的校准分数。Li.2015;Steck.2018;Penha.2021表明,仅关注推荐系统中的预测质量会损害校准,导致用户满意度降低。基于推荐系统的top-k排序校准已被Sato.2024研究。类似地,Yan.2022;Zhang.2024通过两分量损失函数处理提高推荐系统中用户满意度的问题,其中后一部分鼓励校准。为了改进校准,引入了非参数(Menon.2012)和参数方法(Kweon.2022),这些是分类方法的推广。更广泛的概述请参见DaSilva.2025。

#### RLHF中的校准
术语“校准”在RLHF文献中以多种意义出现。一条研究路线研究LLM输出置信度的校准:模型是否在其答案中表达了良好校准的不确定性(Zhu.2023;Tian.2023;Stangel.2025)。与我们的工作相关的一个问题是奖励模型本身是否已校准。Halpern.2025为多元对齐形式化了成对校准:他们训练奖励函数集成,使得集成预测相对于经验标注者分布是校准的。Kaufmann.2025.b关注训练一个能够很好捕捉效用差异的单一奖励模型,从而产生更好校准的Bradley-Terry概率。我们的工作与第二个方向更为一致,因为我们专注于校准奖励模型本身。与先前工作的不同之处在于,我们形式化了排序分布的校准*概念*,提供了一个跨预测粒度及超越RLHF来测量和比较校准的框架,而不是提出训练方法。

## 3 概率标签排序

在此,我们介绍概率标签排序的一般符号并形式化学习问题。然后简要回顾常见的概率排序模型,包括Plackett–Luce和Mallows模型。最后,讨论Plackett–Luce模型与广泛采用的成对比较排序学习范式之间的联系。关于标签排序的更一般概述,参见(Vembu.2010;Zhou.2014)。

#### 符号
令X表示特征空间,I表示项目集合,B⊆I表示I的子集。集合SI由I的所有排序组成,m=|I|表示项目数量。排序π∈SI是一个映射π:I→N,它将每个项目分配到其对应的排序位置。我们写作π=i≻j≻k而非π(i)=1,π(j)=2,π(k)=3。我们还使用≻运算符通过(子)排序π1,π2来表示排序π,例如π=π1≻π2。对于每个排序π,我们用π^(-1):N→I表示将每个位置映射到其对应项目的映射,例如,如果π=i1≻i3≻i2,则π^(-1)(1)=i1,π^(-1)(2)=i3,π^(-1)(3)=i2。此外,给定ρ∈SB,其中B⊆I,如果∀i,j∈B: ρ(i)<ρ(j)⇔π(i)<π(j),则记ρ⊆_B π,并在上下文清楚时省略B。我们用大写字母X,Π表示随机变量,用书法体或手写体如X,SI表示集合,用小写字母x,π表示具体实现。事件A的概率表示为P(A),而P(A)表示集合A上所有概率分布的集合。

#### 概率标签排序
给定一个假设空间H,其中模型h∈H是一个映射h:X→P(SI)。对于排序π∈SI和给定上下文x∈X,h(x)表示SI上的一个分布,h(x)[π]表示分配给π的概率。通过最小化数据集D={(xi,πi)}i=1^n(其中xi∈X,πi∈SI)上选择的损失函数来学习模型h。在整个工作中,假设数据点是独立同分布的。与标准监督学习类似,概率标签排序中的常见方法是归纳出形式为h(x)=f(g(x))的参数化排序模型,其中f:Θ→P(SI)是一个参数化排序分布,g:X→Θ预测每个实例的参数。由于一旦给出θ∈Θ,f就是固定的,学习简化为寻找最优函数g。

#### Plackett–Luce模型
f的一类著名模型是潜在效用模型,其参数为θ∈Θ⊂R_+^m。广泛采用的是Plackett–Luce(PL)模型,它将概率分配给排序π∈SI

相似文章

概率校准是大语言模型中的一项可训练能力

arXiv cs.CL

本文研究了语言模型的概率校准能力是否可以通过微调得到提升,并在12种模型上比较了软目标和硬目标两种方法。结果表明,校准能力是可以训练的,但有时会导致下游算术推理能力的下降。

基于语义级奖励的LLM校准

arXiv cs.CL

提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。

大型语言模型中的置信度校准

arXiv cs.AI

本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。

检索增强的语言校准

arXiv cs.CL

本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。