面向视觉与语言模型的经验贝叶斯共形预测

arXiv cs.LG 论文

摘要

本文介绍了一种经验贝叶斯共形预测框架,该框架使用 r 值将评分变异性纳入非一致性得分中,从而提升排序稳定性并缩减集合大小,同时保持对视觉与语言模型的覆盖。

arXiv:2605.23189v1 发布类型:新 摘要:共形预测(CP)为现代视觉与语言模型提供了无分布假设的覆盖,但它往往被迫基于单个不稳定的非一致性得分做出排序决策。标准 CP 使用单一实现,而平均后校准变体将多个实现平滑为点估计。这两种方案都丢弃了有助于识别候选是否真正稳定的不一致性。一个弱答案可能进入共形集,即使证据不强,仅仅因为一个后验样本或提示措辞使其看起来很强。但变异性可以帮助区分稳定信号与噪声驱动的波动。我们描述了一种经验贝叶斯共形预测框架,该框架使用 $r$ 值将评分变异性转化为不确定性感知的非一致性得分。得到的 $r$ 值估计了在考虑候选平均得分及其不确定性后,其潜在得分属于前排名组的可能性。该框架同时支持闭式正态-正态经验贝叶斯估计器和非参数后验抽样估计器。使用 $r$ 值作为非一致性得分可以在温和的正则条件下保持目标共形覆盖,同时可证明地减少高方差虚假候选的包含。在图像分类、基于 CLIP 的 VLM 基准以及大语言模型上,我们展示了 $r$ 值共形预测在变异性具有信息性时保持目标覆盖,同时提升排序稳定性并缩减集合大小,并在变异性消失时恢复为类似 CP 的行为。
查看原文
查看缓存全文

缓存时间: 2026/05/25 09:02

# 经验贝叶斯共形预测在视觉与语言模型中的应用 来源:https://arxiv.org/html/2605.23189 Jiapeng Zeng¹ Yogesh Prabhu² Zhanpeng Zeng³ Michael A. Newton¹ Vikas Singh¹ ¹威斯康星大学麦迪逊分校 ²加州大学圣地亚哥分校 ³厦门大学 ###### 摘要 共形预测(CP)为现代视觉与语言模型提供无分布假设的覆盖保证,但通常被迫基于单个不稳定的非一致性得分做出排序决策。标准 CP 仅使用单次实现,而“平均后校准”变体则将多次实现平滑为点估计。这两种方法都丢弃了可能有助于判断候选是否真正稳定的不一致性信息。一个弱答案可能仅仅因为某次后验采样或提示措辞使其表现良好而进入共形集,即使证据并不充分。然而,变异性有助于区分稳定信号与噪声驱动的波动。我们提出一种经验贝叶斯共形预测框架,利用 rr 值将得分变异性转化为基于不确定性的非一致性得分。由此得到的 rr 值估计了在同时考虑候选的平均得分及其不确定性后,其潜在得分属于排名最前组的可能性。该框架既包含闭合形式的正态-正态经验贝叶斯估计器,也包含非参数的后验采样估计器。将 rr 值作为非一致性得分,在温和正则条件下,能保持目标共形覆盖率,同时可证明减少高方差虚假候选的纳入。在图像分类、基于 CLIP 的 VLM 基准测试以及 LLM 上,我们表明 rr 值共形预测在保持目标覆盖率的同时,在变异性具有信息量时提升了排序稳定性并降低了集合大小,而在变异性消失时则回归到类似 CP 的行为。 ## 1 引言 大语言模型(LLM)以及视觉变换器(ViT)[8 (https://arxiv.org/html/2605.23189#bib.bib54),31 (https://arxiv.org/html/2605.23189#bib.bib21),18 (https://arxiv.org/html/2605.23189#bib.bib22)] 越来越多地被用于辅助决策,例如在临床部署和金融领域,这些场景中量化不确定性和降低风险至关重要。贝叶斯神经网络(BNN)[15 (https://arxiv.org/html/2605.23189#bib.bib9)]、MC-dropout [9 (https://arxiv.org/html/2605.23189#bib.bib39)] 以及深度集成(DE)[17 (https://arxiv.org/html/2605.23189#bib.bib10)] 是将可信度与模型变异性联系起来的重要思想。但直接将这些方法应用于大型预训练模型可能成本高昂 [1 (https://arxiv.org/html/2605.23189#bib.bib11)]。共形预测(CP)[29 (https://arxiv.org/html/2605.23189#bib.bib7)] 提供了一种替代框架:不在模型内部估计不确定性,而是用经过校准的预测集包裹模型的得分。CP 并非为单个预测附加不确定性,而是返回一个在可交换性假设下 [4 (https://arxiv.org/html/2605.23189#bib.bib1)] 以用户指定概率包含真实输出的集合。这些特性使 CP 成为视觉和语言模型 [30 (https://arxiv.org/html/2605.23189#bib.bib17),27 (https://arxiv.org/html/2605.23189#bib.bib18)] 的有前途工具。 **共形预测中的排序问题。** 尽管 CP 提供无分布假设的覆盖保证,但它并非为直接利用模型参数或训练随机性带来的认知不确定性而设计。标准 CP 依赖于单个模型输出/得分。该保证控制真实标签是否被包含,但集合的有用性取决于该得分能否将真实候选排在虚假候选之前。如果多个候选标签得分相近,微小波动就可能改变它们的顺序,从而改变共形集。当模型或数据异质性导致得分变异性不可忽视时,这种排序不稳定性会变得更加显著。现有结果 [26 (https://arxiv.org/html/2605.23189#bib.bib4)] 表明,CP 在统计异质性下可能表现不佳,导致覆盖率不可靠。图 1 (https://arxiv.org/html/2605.23189#S1.F1) 显示了一个示例:对于同一输入图像,从模型相同后验分布中采样的不同模型实例可能产生不同的共形预测集。结论是:得分变异性不应被简单忽略,相反,它可以为构建更稳定、更高效的共形排序提供有用信息。 参见图说明 图 1:后验采样模型对同一图像产生不同的 CP 集,揭示了认知不稳定性。 这种不稳定性不仅仅源于后验模型采样。在视觉模型中,它可能来源于模型参数的后验不确定性;在 VLM 和 LLM 中,它可能来源于提示改写或基于模型的候选响应评估。高分可能意味着两种截然不同的情况:候选的稳定证据,或者原本弱候选的波动(这正是高方差候选进入共形集的情况)。CP 仅看到一次噪声实现,而 CP avg 在校准前对多次实现取平均,平滑了这种变异性。我们的目标不是消除变异性,而是检验变异性能告诉我们关于候选排名的可靠性信息。 本工作的**贡献**在于,将大模型通常被视为弱点的不一致性 [6 (https://arxiv.org/html/2605.23189#bib.bib38),22 (https://arxiv.org/html/2605.23189#bib.bib27)] 用作共形效率的信号。我们引入一种基于 rr 值 [11 (https://arxiv.org/html/2605.23189#bib.bib5)] 的经验贝叶斯共形预测框架(CPr-value),通过测量候选的潜在得分在同时考虑其估计得分和不确定性后属于最前组的可能性。理论上,在可交换性条件下,使用 rr 值作为非一致性得分能保持目标共形覆盖率,同时降低高方差虚假候选的纳入概率,并导致更小的期望预测集。我们通过两种方式估计该量:一是正态-正态经验贝叶斯模型,给出闭合形式表达式和理论洞察;二是无假设的后验采样估计器。非参数版本是定义理论 rr 值的同一后验尾概率的蒙特卡洛估计量。在图像分类、VLM 和 LLM 任务中,当变异性较小时,CPr-value 的行为与 CP 或 CP avg 相似;但当变异性具有信息量时,它产生更小、更稳定的共形集。 ## 2 预备知识 我们简要回顾共形预测,然后通过示例说明,仅依赖单个预训练模型而忽略模型不确定性如何影响 CP 的可靠性。 **术语/符号。** 考虑数据集 { (xi, yi) } i=1^n,其中 xi 是输入(如图像、问题或提示),yi 是相应的标签或响应。对于给定输入 x,令 U(x) = { u1, ..., uK } 表示候选输出,例如图像分类中的类别标签或语言任务中的候选响应。模型或外部评估器为每个候选 uj 分配一个数值得分 f(x)j。对于图像分类,f(x)j 可以是类别 j 的对数几率或概率;对于 LLM 任务,它可以是另一个模型赋予的似然或质量得分。为便于阅读,我们通篇使用“候选”一词,这对应于 [11 (https://arxiv.org/html/2605.23189#bib.bib5)] 中的“单元”术语。 ### 2.1 共形预测:机制与覆盖 CP 通过将测试得分与校准阈值进行比较来构建预测集。一旦非一致性得分固定,CP 在可交换性假设下提供无分布假设的覆盖保证。这里,预测集的大小取决于该得分如何对候选输出进行排序。 **设置。** 令 { (xi, yi) } i=1^n 为校准集。对于每个校准样本,我们计算真实输出的非一致性得分 Si = S(xi, yi)。对于分类任务,一种选择是 Si = 1 - softmax( f(xi) )_yi,其中较小的得分表示更一致的标签。对于显著性水平 α,CP 将阈值 B 设为校准得分中第 ⌈(n+1)(1-α)⌉ 小的值。对于测试输入 xtest,我们计算每个候选 uj ∈ U(xtest) 的 S(xtest, uj),并包含得分低于校准阈值的候选: C(xtest) = { uj : S(xtest, uj) < B }。 在标准 CP 中,非一致性得分直接从单个模型实例 f 获得。如果 f 不稳定,得分可能在不同运行或采样中变化,导致预测集发生变化。如图 1 (https://arxiv.org/html/2605.23189#S1.F1) 所示,不同模型实例产生不同的集合。这并非覆盖失败,因为每个实例在给定其自身的非一致性得分分布下都保持了边际覆盖。但这对最终用户不利:即使真实标签被覆盖,不同的集合也意味着不同的最终决策集。 ### 2.2 (平均后校准) 与信息丢失 处理这种不稳定性的一种直接方法是平均:首先从扰动分布(例如后验采样、MC-dropout、深度集成)中采样 M 个模型实例或得分向量 f_1(x), …, f_M(x),然后计算平均得分 f̄(x)_j = (1/M) Σ_m f_m(x)_j,最后将标准 CP 应用于 f̄(x)_j。设此方法为 CP avg。 平均会平滑波动,但它丢弃了关于每个候选的可靠性与稳定性的有价值信号。假设候选 A 的得分均值为 0.85,标准差为 0.02,而候选 B 的得分均值为 0.84,标准差为 0.15。平均后,A 排在 B 前面。但如果信号的真实含义是“长期平均”,那么这种排序是合理的。然而,如果使用单次采样,B 有 48.47% 的概率得分高于 A(因为 P(q > p) = 48.47%)。因此,一个高方差候选偶尔会在稳定信号较弱时表现得非常自信。这对 CP 而言是个问题,因为 CP 只观察到一次实现得分。 更一般地,令 g(x) 表示输入 x 的模型得分分布,g_M(x) 是从 g(x) 中抽取的某次实现。由于非一致性得分通常是该实现得分向量的函数,g(x) 的变异性可能改变候选排名,从而改变共形集。图 1 (https://arxiv.org/html/2605.23189#S1.F1) 展示了这种效果:从相同近似后验中采样的不同模型实例对同一图像产生不同的共形集。 一个自然的替代方案是 CP avg,它在应用 CP 之前对多次实现的得分取平均 [29 (https://arxiv.org/html/2605.23189#bib.bib7)]。然而,取平均会丢失高分是稳定还是噪声驱动这一信息。为了构建高效的共形集,我们需要一个同时利用估计值及其变异性的得分。 ## 3 什么是 rr 值? 上一节指出了标准共形排序的主要局限性:CP 使用一次实现得分,而 CP avg 在校准前对多次实现取平均。然而,这两种方法都没有直接使用得分变异性作为排序信号。我们转而将排序步骤视为一个经验贝叶斯问题,并使用 rr 值作为不确定性感知的非一致性得分。在此,我们定义 rr 值,给出参数化和无假设的估计器,并证明由此产生的共形程序在温和正则条件下能保持覆盖率同时减小集合大小。 **设置。** 对于固定输入 x,假设每个候选 ui 有一个未观测的潜在得分 θi,可解释为其在模型或评估程序下的稳定信号或长期期望得分。观测得分 f(x)i 是该信号的一次噪声实现,噪声水平允许在不同候选间变化。rr 值衡量的是,在同时考虑观测得分和不确定性后,θi 落在排名最前组的可能性。我们将此量作为 CP 中的非一致性得分。 ### 3.1 正态-正态模型下的参数化 rr 值 我们首先在正态-正态经验贝叶斯模型下给出 rr 值的参数化版本。该模型主要用于明确不确定性感知的排序:它给出 rr 值的闭合形式表达式,并描述得分大小与得分变异性之间的权衡。我们将其用作解析近似。对于对数几率得分,当后验样本、自助法样本或轻量适配器扰动满足标准后验渐近性(伯恩斯坦-冯·米塞斯行为)时,近似高斯波动是合理的。它们也与宽神经网络的半过程近似一致。 对于每个候选 ui,假设 θi ∼ iid N(μ, τ²), f(x)i | θi ∼ N(θi, σi²)。 这里 θi 表示候选的稳定潜在得分,而 σi² 衡量观测得分在后验或扰动样本中的变异性。在正态-正态共轭模型下,θi 的后验分布为 θi | f(x)i, σi² ∼ N(μθi, σθi²), μθi = (τ² f(x)i + σi² μ) / (τ² + σi²), σθi² = τ² σi² / (τ² + σi²)。(1) 后验均值将观测得分向经验贝叶斯中心 μ 收缩,得分方差较大的候选收缩更强。因此,式 (1) 中的后验分布同时编码了估计的潜在得分及其估计的不确定性。实践中,超参数 μ 和 τ² 可通过经验贝叶斯从数据中估计。 对于比例 β ∈ (0,1),令 θ_β 表示潜在得分分布的 (1-β) 分位数。后验尾概率 V_β ( f(x)i, σi² ) = P{ θi ≥ θ_β | f(x)i, σi² } 是观察到噪声得分及其变异性后,候选 i 属于潜在得分前 β 部分的概率。因此,V_β 在询问:观测得分是否足够大?在考虑不确定性后,候选是否仍可能接近顶部? 在正态-正态模型下,选择前 β 部分对应的最优阈值具有闭合形式: t_β*(σi²) = θ_β (1 + σi²/τ²) - μ (σi²/τ²) - (z_β σi √(σi² + τ²)) / τ,(2) 其中 z_β 的选取使得所选比例为 β。关键点是阈值依赖于 σi²:两个观测得分相同的候选,如果其中一个得分稳定性差得多,则可能被不同地排名。完整推导见附录 C (https://arxiv.org/html/2605.23189#A3)。 ### 3.2 从后验尾概率到 rr 值 量 V_β 评估候选在固定前 β 部分中的成员资格。rr 值将这些跨所有 β 水平的比较组合成一个单一的排序得分。令 λ_β = 1 - Φ(z_β)。在参数阈值族下,定义 r( f(x)i, σi² ) = inf{ β : V_β( f(x)i, σi² ) ≥ λ_β } = inf{ β : f(x)i ≥ t_β*(σi²) }。 较小的 rr 值意味着候选通过了更具选择性的前

相似文章

超越表面统计:通过内部表示实现LLM鲁棒共形预测

arXiv cs.CL

本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。

在线局部化共形预测

arXiv cs.LG

本文提出了在线局部化共形预测(OLCP),旨在解决在线学习和时间序列设置中的协变量异质性问题。文章引入了用于带宽选择的 OLCP-Hedge 算法,并证明与现有基线相比,该方法在获得更窄预测集的同时,仍能保持有效的长期覆盖率。

贝叶斯模型合并

arXiv cs.LG

介绍贝叶斯模型合并(BMM),这是一个即插即用的双层优化框架,用于将多个任务特定的专家模型合并为一个单一模型,在视觉和语言基准测试上实现了最先进的性能。