基于排序概率分数的有序分类可靠共形预测

arXiv cs.LG 论文

摘要

介绍了一种有序分类的共形预测方法,该方法使用排序概率分数作为非一致性函数,生成以中位数为中心的连续预测集,并在预测集宽度与有序错误覆盖之间实现了有利平衡。

arXiv:2606.24959v1 公告类型:新 摘要:有序分类(OC)出现在医学和金融等高风险领域,其中不确定性量化必须考虑有序错误的严重性。共形预测(CP)提供无分布的预测集,并具有边际覆盖保证;然而,其实际有效性关键取决于非一致性函数的选择。我们提出了一种基于排序概率分数(RPS)的有序分类CP方法,RPS是一种定义在累积预测分布上的适当评分规则。尽管它很自然地反映了有序风险,但在共形有序预测(COP)中长期被忽视。当用作非一致性度量时,RPS通过构造生成以中位数为中心的连续预测集。该方法是模型无关的,支持已评估和分组的有序分类结果,并且与贪婪区间选择过程相比,允许高效实现。在多个有序图像和表格数据集上,基于RPS的CP生成连续预测集,并在预测集宽度与有序错误覆盖的幅度方面,相对于现有的CP方法实现了有利的平衡。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:08

# 使用排序概率得分的有序分类可靠共形预测
来源:https://arxiv.org/html/2606.24959

Luca Killmaier  
Institute of Informatics  
LMU Munich  
Munich, Germany

Alireza Javanmardi  
Institute of Informatics  
LMU Munich  
Munich, Germany  
Munich Center for Machine Learning \(MCML\)  
Munich, Germany

Eyke Hüllermeier  
Institute of Informatics  
LMU Munich  
Munich, Germany  
Munich Center for Machine Learning \(MCML\)  
Munich, Germany  
German Centre for Artificial Intelligence \(DFKI, DSA\)  
Kaiserslautern, Germany

###### 摘要

有序分类在半分行风险领域中出现,例如医学和金融,在这些领域中,不确定性量化必须考虑序数错误的严重性。共形预测提供了具有边际覆盖保证的分布自由预测集;然而,其实际有效性关键取决于非符合性函数的选择。我们提出了一种基于排序概率得分的有序分类共形预测方法,该得分是定义在累积预测分布上的适当评分规则。尽管它能够非常自然地反映序数风险,但在序数共形预测中在很大程度上被忽视了。当用作非符合性度量时,RPS 通过构造生成以中位数为中心的连续预测集。该方法与模型无关,支持评估型和分组型有序分类输出,并且与贪婪区间选择程序相比,允许高效实现。在多个序数图像和表格数据集上,基于 RPS 的共形预测产生连续预测集,并且在预测集宽度与序数误覆盖的幅度之间取得了比现有共形预测方法更好的平衡。

## 1 引言

有序分类(在统计学中也称为序数回归[^mccullagh1980regression])指的是类标签呈现自然线性顺序的分类问题。代表性应用包括医学诊断[^DBLP:journals/peerj-cs/AlbuquerqueCC21]、年龄估计[^DBLP:journals/prl/CaoMR20]和信用风险评估[^DBLP:journals/sma/HirkHV19]。尽管它在高风险领域普遍存在,但大多数关于有序分类的工作主要集中在改进点预测性能[^DBLP:journals/paa/ShiCR23][^DBLP:conf/aaai/NachmaniGSSG25][^DBLP:journals/eswa/PolatCT25],而不确定性量化最近才受到关注[^DBLP:journals/ijar/HaasH25][^DBLP:journals/corr/abs-2507-00733]。此处,对于查询点 \(\boldsymbol{x}_q\) 的不确定性通常由概率预测器产生的关于有序标签的条件预测分布 \(p(y \mid \boldsymbol{x}_q)\) 表示。或者,不确定性也可以通过集值预测来表示。共形预测提供了一个原则性的、与模型无关的框架,用于事后构建预测集[^DBLP:journals/jmlr/ShaferV08][^vovk2005algorithmic][^DBLP:conf/icml/VovkGS99][^DBLP:journals/corr/abs-2107-07511]。它校准一个基础的(启发式)不确定性估计,以在用户指定的误覆盖率 \(\alpha\) 下实现有限样本、分布自由的边际覆盖。共形预测不是给出单个标签 \(y \in \mathcal{Y}\),而是输出一组可能标签的集合 \(\mathcal{C}_\alpha(\boldsymbol{x}_q) \subseteq \mathcal{Y}\),其大小反映了查询点 \(\boldsymbol{x}_q\) 处的预测不确定性。然而,在序数共形预测中产生既信息丰富又与标签空间的序数结构一致的集合仍然具有挑战性。

序数共形预测的一个关键要求是预测集必须是连续的[^DBLP:conf/miccai/LuAP22][^DBLP:conf/uai/XuGW23][^DBLP:conf/nips/DeyMK23]。例如,考虑从图像中估计年龄[^DBLP:journals/paa/ShiCR23][^DBLP:conf/caepia/YunGGBGH24],其中潜在连续变量(如年龄)被离散化为有序类别,且 \(\mathcal{Y} = \{\texttt{baby}, \texttt{child}, \texttt{teenager}, \texttt{adult}, \texttt{senior}\}\)。一个有效的预测集应仅包含相邻的年龄类别,例如 \(\mathcal{C}_\alpha(\boldsymbol{x}_q) = \{\texttt{child}, \texttt{teenager}, \texttt{adult}\}\),而非连续集如 \(\mathcal{C}_\alpha(\boldsymbol{x}_q) = \{\texttt{child}, \texttt{senior}\}\) 可能显得不合理。

请参阅图1:
(左) 评估型有序分类变量的示例(黑色素瘤生存预后[^NCI1985_AV8500_3850]),医生之间存在极端分歧。为了忠实量化不确定性,预测集必须是连续的,并包含冲突评估之间的所有中间类别。
(右) 分组型有序分类变量的示例(年龄估计),其中单峰预测建模是有充分依据的,并自然导致连续预测集[^lanitis2002toward][^panis2016overview]。

与之前描述的分组型有序分类变量并列的另一重要类别是评估型有序分类变量[^anderson1984regression],其中人类专家分配标签,如在金融风险评估或医学生存预后中。在这些情境下,由于专家间的不一致,错误通常固有地更大,这使得保持连续性对于准确捕捉不确定性更加关键。例如,考虑医生对IV期黑色素瘤生存预后的看法,这些看法可能两极分化,导致在<1年(非常悲观组)和≫5年(受免疫治疗结果影响的乐观组)出现大的聚集。为了在这种情况下正确量化不确定性,预测集不应仅限于两个最常见的类别,即 \(\mathcal{C}_\alpha(\boldsymbol{x}_q) = \{\texttt{<1 year}, \texttt{≫5 years}\}\);相反,它应该包含所有合理类别的整个范围,\(\mathcal{C}_\alpha(\boldsymbol{x}_q) = \{\texttt{<1 year}, \texttt{1-3 years}, \texttt{3-5 years}, \texttt{>5 years}, \texttt{≫5 years}\}\)。否则,通过预测集大小衡量的不确定性将被严重低估(见图1 (https://arxiv.org/html/2606.24959#S1.F1))。

序数共形预测中另一个受到有限关注的重要方面是当真实标签位于预测集之外时的*误覆盖严重性*。例如,在金融风险评估中,如果真实标签是 \(y = \texttt{very high}\),而 \(\mathcal{C}_\alpha(x) = \{\texttt{low}, \texttt{moderate}\}\),那么导致的误覆盖是实质性的,并可能导致灾难性的风险误估。理想情况下,当覆盖失败时,真实标签应尽可能接近预测集的边界,从而最小化误覆盖的影响。在此标准下,较大的集合如 \(\mathcal{C}_\alpha(x) = \{\texttt{low}, \texttt{moderate}, \texttt{high}\}\) 可能比较小的集合 \(\mathcal{C}_\alpha(x) = \{\texttt{low}, \texttt{moderate}\}\) 更可取,即使两者都未能覆盖真实标签,且较大的集合在经典共形预测意义上效率较低。这一观察结果激发了针对有序分类的不确定性量化方法,这些方法不仅考虑覆盖率和效率,还考虑误覆盖下产生的序数距离。

这些挑战激发了一种与模型无关的序数分类共形方法,该方法可以与任意损失函数结合,适应分组型和评估型有序目标,并产生有意义且准确量化不确定性的连续预测集。此外,这种方法在构建预测集时应以无偏且计算高效的方式利用整个预测概率分布。现有方法未能满足这些要求(参见第2节 (https://arxiv.org/html/2606.24959#S2))。

在本文中,我们倡导将排序概率得分[^epstein1969scoring]作为有序分类中共形预测的非符合性度量。RPS是一种针对有序结果的适当评分规则[^gneiting2007strictly],它激励真实的概率估计,并明确考虑标签空间的线性结构。尽管RPS在预测文献中已经确立[^murphy1970ranked][^Murphy1971ANO],但直到最近才被认识到是机器学习中评估概率性有序分类器的理论基础指标[^DBLP:conf/miccai/Galdran23]。据我们所知,RPS尚未被提出作为有序分类中共形预测的非符合性度量。

本文的主要贡献如下:
- • 我们提出将RPS作为一种适当的、与模型无关的非符合性度量,用于有序分类中的共形预测。
- • 我们提供了关于有序分类中期望性质的理论保证:基于RPS的共形预测集满足(i)边际覆盖,(ii)关于误覆盖水平 \(\alpha\) 具有嵌套性,以及(iii)是连续的。
- • 此外,我们证明,与主要针对集效率的以众数为中心的方法相反,基于RPS的预测集在Oracle条件覆盖下直接优化以基于集的 \(l_1\) 误差衡量的序数风险。
- • 我们表明,基于RPS的共形预测在计算上是高效的,其计算复杂度与标签数量和校准点数量均呈线性关系。
- • 最后,我们在序数图像和表格数据集上经验性地验证了我们的方法,表明以中位数为中心的基于RPS的预测集在区间宽度和序数误覆盖幅度之间取得了有利的平衡。

## 2 相关工作

#### 有序分类
处理预测离散有序标签的问题,这在许多高风险领域中常见,包括医学[^DBLP:journals/artmed/Dorado-MorenoPG17][^prodeau2019ordinal][^DBLP:journals/mta/TariqSN25]和金融[^DBLP:journals/sma/HirkHV19]。与多类分类(其中类标签是无序的)不同,有序分类必须考虑类别之间的内在顺序,这意味着误分类成本通常随着预测标签 \(\hat{y}\) 与真实标签 \(y\) 之间差距的增加而增加。同时,有序分类不同于回归,因为标签是离散的而非连续的,并且基础的测量尺度是序数的而非基数的。因此,严格来说,不存在自然的距离概念。尽管如此,将类标签编码为整数 \(1, \ldots, K\) 并使用基于距离的损失(如 \(|\hat{y} - y|\))是常见的做法。

最近在有序分类中的工作主要集中在提高预测性能,通常通过最小化基于距离的损失,如平均绝对误差[^DBLP:conf/ai/GaudetteJ09]或二次加权卡帕系数[^cohen1968weighted]。现有方法可以大致分为(i)单峰软标注方法[^DBLP:conf/cvpr/DiazM19][^DBLP:journals/ijon/LiuFKDXLY20][^DBLP:conf/pkdd/HaasH23][^DBLP:journals/pr/VargasGH22][^DBLP:journals/isci/VargasDGGH23][^DBLP:journals/inffus/VargasGBH23],(ii)序数损失函数[^DBLP:journals/corr/HouYS16][^DBLP:journals/prl/TorrePV18][^DBLP:conf/coling/CastagnosMD22][^albuquerque2022quasi][^DBLP:conf/aaai/NachmaniGSSG25][^DBLP:journals/eswa/PolatCT25],以及(iii)显式单峰性约束[^DBLP:journals/nn/CostaAC08][^DBLP:conf/icml/BeckhamP17][^DBLP:conf/nips/DeyMK23][^DBLP:journals/tai/CardosoCA25]。

#### 共形预测
是一个框架,可以应用于任何基础模型之上,以产生预测集(在回归中称为预测区间)而不是点预测[^DBLP:journals/jmlr/ShaferV08][^vovk2005algorithmic][^DBLP:conf/icml/VovkGS99]。这些集合保证以用户指定的边际覆盖概率包含真实标签。归纳共形预测[^DBLP:conf/ecml/PapadopoulosPVG02][^papadopoulos2008inductive](也称为分裂共形预测)由于计算效率高,已成为实际中的标准方法。共形预测已在分类[^sadinle2019least][^DBLP:conf/nips/RomanoSC20]和回归[^DBLP:conf/nips/RomanoPC19]中得到广泛研究,提供了有限样本、分布自由的覆盖保证。

最近,有序分类的共形预测引起了越来越多的关注。Lu等人[^DBLP:conf/miccai/LuAP22]和Zhang等人[^zhang2025provably]通过从预测分布的众数向外扩展来构造连续预测集,执行贪婪搜索以找到确保边际覆盖的阈值,同时力求使集合尽可能小。Xu等人[^DBLP:conf/uai/XuGW23]在共形风险控制框架[^DBLP:journals/corr/abs-2208-02814]内形式化了序数共形预测,追求基本相同的目标。Dey等人[^DBLP:conf/nips/DeyMK23]采取了不同的方法,通过强制预测分布为单峰,使得可以重用现有的共形方法,如最小模糊集值分类器和自适应预测集[^DBLP:conf/nips/RomanoSC20],同时保证连续性。然而,单峰性是一种强烈的偏差,并不总是合理的,可能会对有序分类中的无偏不确定性量化产生负面影响[^DBLP:journals/ijar/HaasH25][^DBLP:journals/corr/abs-2507-00733]。

与这些方法相比,我们提出了一种高效、与模型无关的共形方法,通过原则性的适当评分规则利用完整的预测分布。该方法保证生成以中位数为中心的连续预测集,无需依赖贪婪或基于搜索的程序、以众数为中心的构造或单峰性假设,同时忠实尊重标签空间的序数结构并在Oracle条件覆盖下最小化序数风险。

## 3 方法

### 3.1 问题形式化

考虑一个数据集 \(\mathcal{D} = \{(X_i, Y_i)\}_{i=1}^n \subset \mathcal{X} \times \mathcal{Y}\),从联合输入输出空间 \(\mathcal{X} \times \mathcal{Y}\) 上的底层分布 \(\mathcal{P}\) 中抽取。我们关注有序分类设定,其中输出空间 \(\mathcal{Y} = \{y_1, \ldots, y_K\}\) 由一组有限的类标签组成,并具有自然的(线性)顺序 \(y_1 \prec y_2 \prec \cdots \prec y_K\)。令 \((X_{n+1}, Y_{n+1})\) 表示一个测试实例,使得增广样本 \(\mathcal{D} \cup \{(X_{n+1}, Y_{n+1})\}\) 是可交换的。假设测试标签 \(Y_{n+1}\) 未观察到,共形预测的目标是构造一个预测集 \(\mathcal{C}_\alpha(X_{n+1}) \subseteq \mathcal{Y}\),满足边际覆盖保证。

###### 定义 3.1 (边际覆盖)。一个共形预测过程在水平 \(1-\alpha\) 下满足边际覆盖,如果其输出的预测集 \(\mathcal{C}(X_{n+1})\) 满足
\[
\mathbb{P}\left(Y_{n+1} \in \mathcal{C}(X_{n+1})\right) \geq 1-\alpha,
\]
其中 \(\alpha \in (0,1)\) 是用户指定的错误率,概率是相对于联合分布 \(\mathcal{P}\) 以及 \(\mathcal{C}\) 构造中的任何随机性而言的。

分布自由的共形预测方法通常不能保证逐实例的条件覆盖[^DBLP:journals/ml/Vovk13],这是比边际覆盖更严格的要求。

###### 定义 3.2 (条件覆盖)。一个共形预测过程满足条件覆盖,如果对于任意测试点 \(X_{n+1}=x\),有
\[
\mathbb{P}\left(Y_{n+1} \in \mathcal{C}(x) \mid X_{n+1}=x\right) \geq 1-\alpha.
\]

条件覆盖比边际覆盖更强,因为前者要求对每个可能的输入x都满足覆盖保证,而后者仅平均意义上成立。然而,在分布自由设定下,条件覆盖通常无法实现,除非在平凡设定中。因此,大多数共形预测方法专注于边际覆盖。

相似文章

面向视觉与语言模型的经验贝叶斯共形预测

arXiv cs.LG

本文介绍了一种经验贝叶斯共形预测框架,该框架使用 r 值将评分变异性纳入非一致性得分中,从而提升排序稳定性并缩减集合大小,同时保持对视觉与语言模型的覆盖。

超越表面统计:通过内部表示实现LLM鲁棒共形预测

arXiv cs.CL

本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。

在线局部化共形预测

arXiv cs.LG

本文提出了在线局部化共形预测(OLCP),旨在解决在线学习和时间序列设置中的协变量异质性问题。文章引入了用于带宽选择的 OLCP-Hedge 算法,并证明与现有基线相比,该方法在获得更窄预测集的同时,仍能保持有效的长期覆盖率。

基于预测驱动推理的统计可靠LLM排名评估

arXiv cs.LG

本文介绍了PRECISE,它是预测驱动推理(Prediction-Powered Inference)的一种扩展,将少量人工标注与大量LLM判断结合,以生成无偏且方差减小的排名评估指标(如Precision@K)估计。该方法在ESCI基准测试和实际生产环境的A/B测试中进行了验证,仅使用100个人工标注就正确识别出了最佳系统变体,并通过+407 bps的销售改进得到了确认。