PASC:面向多阶段NLP和LLM流水线的具有联合覆盖保证的流水线感知共形预测

arXiv cs.LG 论文

摘要

PASC提出了一种用于多阶段NLP和LLM流水线的共形预测方法,该方法提供跨所有阶段的有限样本、无分布假设的联合覆盖保证,相比Bonferroni和独立CP等基线方法,实现了更高的经验覆盖率和效率。

arXiv:2605.18812v1 公告类型:新 摘要:现代NLP和LLM系统是流水线:命名实体识别(NER)-> 实体消歧(NED)-> 实体分类,检索增强生成(检索器 -> 阅读器),以及规划器 -> 工具 -> 批评者的代理链。错误在各阶段累积,但现有的不确定性量化方法要么独立校准每个阶段(无联合覆盖),要么应用Bonferroni联合界(联合覆盖,但过于保守)。我们提出PASC(流水线感知分裂共形),它将多阶段联合覆盖简化为一个关于联合最大非一致性得分的标量共形预测问题。PASC提供了有限样本、无分布假设的保证,即所有K个阶段同时被覆盖的概率至少为1 - alpha,并且几乎紧,误差因子为1/(n+1)。在CoNLL-2003上的三阶段NER -> NED -> 实体分类流水线上,PASC实现了96.4%的端到端覆盖,而Bonferroni为93.4%,独立CP为86.5%,平均预测集大小相同(1.083)。在分布偏移到WNUT-17推特和WikiNEuRal维基百科数据时,PASC在测试的偏移设置中经验性地保持了目标覆盖率,而独立CP下降至59%。PASC仅需一次分位数计算,运行速度比Bonferroni快1.7倍,并可扩展到K = 6个阶段,此时独立CP的端到端覆盖率降至0.53。相同的联合最大得分简化方法直接适用于复合LLM系统和代理流水线。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:38

# 面向流水线的共形预测:为多阶段NLP和LLM流水线提供联合覆盖保证

来源:https://arxiv.org/html/2605.18812

###### 摘要

现代NLP和LLM系统本质上是流水线:命名实体识别 \(NER\)→→实体消歧 \(NED\)→→实体分类、检索增强生成 \(检索器→→读取器\),以及规划器→→工具→→评判者的智能体链。错误在阶段之间累积放大,但现有的不确定性量化方法要么独立校准每个阶段(无联合覆盖),要么应用Bonferroni联合边界(有联合覆盖,但保守)。我们提出PASC(流水线感知分裂共形),它将多阶段联合覆盖约简为关于*联合最大非一致性分数*的一个标量共形预测问题。PASC提供有限样本无分布保证,即所有KK个阶段同时被覆盖的概率至少为1−α1-\\alpha,并且在1/(n+1)1/(n+1)因子内几乎是紧的。在CoNLL-2003上的三阶段NER→→NED→→实体分类流水线中,PASC实现了96.4%96.4\\%的端到端覆盖,而Bonferroni为93.4%93.4\\%,独立CP为86.5%86.5\\%,且平均预测集大小相同(1.0831.083)。在分布偏移到WNUT-17 Twitter数据和WikiNEuRal Wikipedia数据时,PASC在测试的偏移设置中经验性地保持≥1−α\\geq 1-\\alpha覆盖,而独立CP崩溃到59%59\\%。PASC只需要一次分位数计算,运行速度比Bonferroni快1.7×1.7\\times,并且扩展到K=6K=6阶段,此时独立CP的端到端覆盖降至0.530.53。相同的联合最大分数约简直接适用于复合LLM系统和智能体流水线。

共形预测,联合覆盖,多阶段流水线,LLM流水线,RAG,复合AI,无分布不确定性,命名实体识别,实体消歧,NLP

预印本。

## 1 引言

信息抽取(IE)流水线是实践中部署最广泛的NLP系统之一,为生物医学文本挖掘(Finkel and Manning,2006 (https://arxiv.org/html/2605.18812#bib.bib24))、金融文档分析和知识图谱构建(Nickelet al.,2016 (https://arxiv.org/html/2605.18812#bib.bib38); Vrandečić and Krötzsch,2014 (https://arxiv.org/html/2605.18812#bib.bib39))等应用提供支持。这些流水线通常串联多个学习组件:*命名实体识别器*(NER)识别实体跨度,*实体消歧器*(NED)将跨度映射到知识库条目,*实体分类器*(或关系抽取器)为链接的实体分配语义类别。每个阶段独立训练,并引入自己的预测误差,这些误差会通过后续阶段级联并放大(Finkel and Manning,2006 (https://arxiv.org/html/2605.18812#bib.bib24))。相同组合结构也驱动了我们实践中部署的生产级多阶段IE和检索增强生成系统(Sharmaet al.,2024 (https://arxiv.org/html/2605.18812#bib.bib40); Kotte and others,2025 (https://arxiv.org/html/2605.18812#bib.bib41))。

可靠部署此类系统需要端到端(E2E)的不确定性量化:我们需要知道*整个流水线输出*何时可以信任,而不仅仅是单个组件。这在高风险场景(如医疗决策支持、法律文档审查和科学声明提取)中尤其关键,未校准的流水线输出可能会误导下游决策者。可靠性问题也影响结构化抽取的下游消费者(Kotte,2026a (https://arxiv.org/html/2605.18812#bib.bib42))。

#### 挑战。

假设每个KK个流水线阶段都已在误差水平α\\alpha下单独校准,因此边际上P(stagekcovered)≥1−α\\mathbb{P}(\\text{stage}_{k}\\text{ covered})\\geq 1-\\alpha。那么*所有阶段同时被覆盖*的概率在独立情况下最多为(1−α)K(1-\\alpha)^{K}。对于K=3K=3和α=0.1\\alpha=0.1,这退化为最多72.9%72.9\\%的联合覆盖,尽管每个阶段保证了90%90\\%。在实践中,阶段之间的依赖性使得这更难预测。

#### 现有方法存在不足。

- •*独立每阶段CP*(Shafer and Vovk,2008 (https://arxiv.org/html/2605.18812#bib.bib2)):每个阶段单独校准至1−α1-\\alpha。不提供联合保证。在我们的基准测试中α=0.1\\alpha=0.1时,E2E覆盖率为86.5%86.5\\%,远低于目标90%90\\%。
- •*Bonferroni校正*:每个阶段校准至1−α/K1-\\alpha/K。通过联合边界提供联合保证,但保守:它会过度覆盖简单阶段,扩大预测集而没有成比例的覆盖率提升(第5节 (https://arxiv.org/html/2605.18812#S5))。
- •*MC dropout / 深度集成*(Gal and Ghahramani,2016 (https://arxiv.org/html/2605.18812#bib.bib25); Lakshminarayananet al.,2017 (https://arxiv.org/html/2605.18812#bib.bib26)):提供启发式不确定性估计,但没有无分布保证,需要20×20\\times推理开销,并且对跨阶段依赖性不敏感。

#### 我们的贡献。

我们提出了PASC(流水线感知分裂共形预测),一种通过单一观察实现形式化有限样本联合覆盖保证P(所有阶段同时被覆盖)≥1−α\\mathbb{P}(\\text{所有阶段同时被覆盖})\\geq 1-\\alpha的方法:“所有阶段都被覆盖”这一事件等价于“最大每阶段非一致性分数不超过一个阈值”。这将多阶段校准约简为标准标量共形预测在联合最大分数上的问题,继承了其所有理论保证,同时只需要一次分位数计算。虽然这个约简在数学上很简单,但我们在附录D (https://arxiv.org/html/2605.18812#A4)中表明,最大值是联合接受事件的*最小充分*单调标量化函数,并且其经验后果是显著的:PASC填补了先前流水线CP工作留下的联合覆盖缺口,并为组合NLP系统提供了第一个形式化联合保证。PASC是对结构化输出最新校准工作的补充(Kotte,2026b (https://arxiv.org/html/2605.18812#bib.bib43))。

#### 贡献总结。

1. 1.PASC算法(第3节 (https://arxiv.org/html/2605.18812#S3)):一种流水线感知的校准程序,具有源自标准分裂共形理论的形式化联合覆盖保证。
2. 2.形式化保证(定理6 (https://arxiv.org/html/2605.18812#Thmtheorem6)):在可交换性下,有限样本无分布联合覆盖≥1−α\\geq 1-\\alpha,并附有匹配的近紧性结果。
3. 3.全面评估(第4节 (https://arxiv.org/html/2605.18812#S4)–5 (https://arxiv.org/html/2605.18812#S5)):涵盖三种偏移场景(同分布、Twitter NER、Wikipedia NER)、三种校准规模、K∈{1,...,6}K\\in\\{1,\\ldots,6\\}个阶段、1818类型实体分类以及条件覆盖分析。
4. 4.合理性检查(附录A (https://arxiv.org/html/2605.18812#A1)):验证CP有效性的置换检验、分裂完整性审计以及展示失败模式的阴性对照实验。

一个反复出现的实际反对意见认为,端到端不确定性方法要么未能反映所关注的实际部署事件(因为它们只认证局部阶段),要么通过支付全局保守性税来实现有效保证。PASC避免了这两种情况:它直接认证部署事件,以最小的约简代价将多阶段问题转化为标准标量共形问题。

我们的评估隔离了PASC优势的来源。真实流水线隔离了实际的IE场景;扩展的1818类型分类阶段移除了原始原型中的退化下游伪影;调优的Bonferroni前沿验证了我们的收益不是由于弱基线;KK阶段合成实验隔离了组合效应与数据集特异性;合理性检查排除了泄漏和实现错误。

## 2 背景

### 2.1 分裂共形预测

设{(Xi,Yi)}i=1n+1\\{(X_{i},Y_{i})\\}_{i=1}^{n+1}是可交换随机变量。分裂共形预测(Papadopouloset al.,2002 (https://arxiv.org/html/2605.18812#bib.bib3); Shafer and Vovk,2008 (https://arxiv.org/html/2605.18812#bib.bib2))持有一个校准集Dcal={(Xi,Yi)}i=1n\\mathcal{D}_{\\mathrm{cal}}=\\{(X_{i},Y_{i})\\}_{i=1}^{n}和一个测试点(Xn+1,Yn+1)X_{n+1},Y_{n+1}。

###### 定义1(非一致性分数)。

*非一致性分数*s(x,y)∈Rs(x,y)\\in\\mathbb{R}衡量(x,y)(x,y)相对于模型的不典型程度。高分表示非一致性。

###### 定义2(CP分位数)。

给定水平α\\alpha下的校准分数{si}i=1n\\{s_{i}\\}_{i=1}^{n},共形分位数为:

q^=Quantile({s1,...,sn},⌈(n+1)(1−α)⌉n)。\\hat{q}=\\mathrm{Quantile}\\!\\left(\\{s_{1},\\ldots,s_{n}\\},\\frac{\\lceil(n+1)(1-\\alpha)\\rceil}{n}\\right)。\(1\)

###### 定理3(边际覆盖(Vovket al.,2005 (https://arxiv.org/html/2605.18812#bib.bib1); Leiet al.,2018 (https://arxiv.org/html/2605.18812#bib.bib4)))。

如果(X1,Y1),…,(Xn+1,Yn+1)X_{1},Y_{1},\\ldots,X_{n+1},Y_{n+1}是可交换的,那么对于由等式1 (https://arxiv.org/html/2605.18812#S2.E1)定义的q^\\hat{q},有:

P(s(Xn+1,Yn+1)≤q^)≥1−α。\\mathbb{P}(s(X_{n+1},Y_{n+1})\\leq\\hat{q})\\geq 1-\\alpha。\(2)

这个结果是无分布的,并且对有限nn成立。预测集C(x)={y:s(x,y)≤q^}\\mathcal{C}(x)=\\{y:s(x,y)\\leq\\hat{q}\\}实现边际覆盖≥1−α\\geq 1-\\alpha。

### 2.2 多阶段NLP流水线

一个KK阶段NLP流水线将输入文本xx通过一系列学习预测器映射:

x→f1z1→f2z2→⋯→fKzK,x\\xrightarrow{f_{1}}z_{1}\\xrightarrow{f_{2}}z_{2}\\xrightarrow{\\cdots}\\xrightarrow{f_{K}}z_{K},\(3\)其中zkz_{k}是阶段kk的输出,可能条件依赖于所有先前的输出。每个阶段kk有一个真实目标yky_{k}和一个非一致性分数sk(x,zk−1,yk)∈[0,1]s_{k}(x,z_{k-1},y_{k})\\in[0,1]。

#### 联合覆盖

要求对于阈值q1,...,qKq_{1},\\ldots,q_{K}有⋂k=1K{sk≤qk}\\bigcap_{k=1}^{K}\\{s_{k}\\leq q_{k}\\}。

#### 独立CP

每个阶段以1−α1-\\alpha设置qk=q^(k)q_{k}=\\hat{q}^{(k)}。产生的联合覆盖满足:

P(⋂k=1K{sk≤qk})≠1−α(无保证)。\\mathbb{P}\\!\\left(\\bigcap_{k=1}^{K}\\{s_{k}\\leq q_{k}\\}\\right)\\neq 1-\\alpha\\quad\\text{(无保证)。}\(4)

#### Bonferroni校正

将每个水平设置为αk=α/K\\alpha_{k}=\\alpha/K,使用qk=q^α/K(k)q_{k}=\\hat{q}^{(k)}_{\\alpha/K}。根据联合边界:

P(⋂k=1K{sk≤qk})≥1−K⋅(α/K)=1−α。\\mathbb{P}\\!\\left(\\bigcap_{k=1}^{K}\\{s_{k}\\leq q_{k}\\}\\right)\\geq 1-K\\cdot(\\alpha/K)=1-\\alpha。\(5)然而,Bonferroni将误差预算均匀分配给所有阶段,而不考虑它们的难度,导致对简单阶段过度覆盖(以及过大的预测集)。

独立CP和Bonferroni之间的差距反映了认证事件与部署事件之间的不匹配。独立CP孤立地认证每个局部事件{sk≤qk}\\{s_{k}\\leq q_{k}\\},但部署仅在*所有*阶段*同时*成功时才接受。Bonferroni通过上界化失败并集来纠正这种不匹配,但它没有利用分数向量(s1,...,sK)s_{1},\\ldots,s_{K}的经验依赖性结构。

###### 命题4(接受事件的精确约简)。

对于任何公共阈值q∈Rq\\in\\mathbb{R},

⋂k=1K{sk≤q}={maxk⁡sk≤q}。\\bigcap_{k=1}^{K}\\{s_{k}\\leq q\\}=\\{\\max_{k}s_{k}\\leq q\\}。\(6)

因此,标量随机变量maxk⁡sk\\max_{k}s_{k}的任何有限样本边际保证立即产生流水线接受事件的有限样本E2E保证。

这个命题是初等的,但它是论文的核心结构观察:一旦部署决策被写入正确的事件空间,多阶段校准就不再是一个新的共形原语。相反,它变成了为从业者实际关心的事件选择正确标量统计量的问题。

## 3 PASC:流水线感知分裂共形

### 3.1 关键见解

联合事件“所有流水线阶段都被覆盖”分解为:

⋂k=1K{sk≤q}={maxk=1K⁡sk≤q}。\\bigcap_{k=1}^{K}\\{s_{k}\\leq q\\}=\\left\\{\\max_{k=1}^{K}s_{k}\\leq q\\right\\}。\(7)
等式7 (https://arxiv.org/html/2605.18812#S3.E7)是PASC的核心观察:如果所有KK阶段共享一个*公共阈值*qq,那么联合覆盖等价于标量最大分数的单阶段覆盖。对最大值应用标准CP即可提供所需的联合保证。

###### 定义5(联合最大非一致性分数)。

对于具有每阶段分数s1,...,sKs_{1},\\ldots,s_{K}的流水线样本(x,{yk}k=1K)x,\\{y_{k}\\}_{k=1}^{K},定义:

smax(x,{yk}):=maxk=1K⁡sk(x,yk)。s_{\\max}(x,\\{y_{k}\\}):=\\max_{k=1}^{K}s_{k}(x,y_{k})。\(8)

### 3.2 算法

**算法1** PASC校准和预测

**输入:** 校准集 Dcal\\mathcal{D}_{\\mathrm{cal}},流水线 {fk}k=1K\\{f_{k}\\}_{k=1}^{K},水平 α\\alpha

1: **校准阶段:**

2: **for** (xi,{yk,i})(x_{i},\\{y_{k,i}\\}) 在 Dcal\\mathcal{D}_{\\mathrm{cal}} **do**

3:     运行流水线以获得每阶段输出和分数 sk,is_{k,i}

4:     计算 smax(i)←maxk=1K⁡sk,is^{(i)}_{\\max}\\leftarrow\\max_{k=1}^{K}s_{k,i}

5: **end for**

6: 计算 q^←Quantile({smax(i)},⌈(n+1)(1−α)⌉/n)\\hat{q}\\leftarrow\\mathrm{Quantile}(\\{s^{(i)}_{\\max}\\},\\lceil(n+1)(1-\\alpha)\\rceil/n)

7: **预测阶段 (测试点 xtestx_{\\mathrm{test}}):**

8: **for** k=1,...,Kk=1,\\ldots,K **do**

9:     Ck(x)←{yk:sk(x,yk)≤q^}\\mathcal{C}_{k}(x)\\leftarrow\\{y_{k}:s_{k}(x,y_{k})\\leq\\hat{q}\\}

10: **end for**

11: **return** (C1(x),…,CK(x))(\\mathcal{C}_{1}(x),\\ldots,\\mathcal{C}_{K}(x)),如果 smaxtest≤q^s^{\\mathrm{test}}_{\\max}\\leq\\hat{q} 则接受

#### 实现细节。

每阶段非一致性分数定义如下:

- •NER:sNER=maxt⁡(1−ptBIO)s_{\\mathrm{NER}}=\\max_{t}(1-p_{t}^{\\mathrm{BIO}}),其中ptBIOp_{t}^{\\mathrm{BIO}}是位置tt处预测BIO标签的softmax概率。
- •NED:sNED=1−score(e∗)s_{\\mathrm{NED}}=1-\\mathrm{score}(e^{*}),其中e∗e^{*}是来自GENRE(De Caoet al.,2021 (https://arxiv.org/html/2605.18812#bib.bib31))的最高排名实体。
- •实体分类:styping=1−maxc∈T⁡minspan∈c⁡pcRoBERTas_{\\mathrm{typing}}=1-\\max_{c\\in\\mathcal{T}}\\min_{\\mathrm{span}\\in c}p_{c}^{\\mathrm{RoBERTa}},其中T\\mathcal{T}是完整的OntoNotes-18类型集(Pradhanet al.,2013 (https://arxiv.org/html/2605.18812#bib.bib33))。

#### 为什么最大值是正确的标量化函数。

其他聚合方式如求和或平均在人们希望优化整体风险的平滑代理时是自然的。但它们与选择性接受中使用的二元部署事件对齐不良:系统被信任当且仅当每个阶段同时可接受。最大值是唯一的单调标量化函数,其阈值事件精确地恢复了这个合取。这种对齐使得PASC能够

相似文章

超越表面统计:通过内部表示实现LLM鲁棒共形预测

arXiv cs.CL

本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。

在线局部化共形预测

arXiv cs.LG

本文提出了在线局部化共形预测(OLCP),旨在解决在线学习和时间序列设置中的协变量异质性问题。文章引入了用于带宽选择的 OLCP-Hedge 算法,并证明与现有基线相比,该方法在获得更窄预测集的同时,仍能保持有效的长期覆盖率。

面向视觉与语言模型的经验贝叶斯共形预测

arXiv cs.LG

本文介绍了一种经验贝叶斯共形预测框架,该框架使用 r 值将评分变异性纳入非一致性得分中,从而提升排序稳定性并缩减集合大小,同时保持对视觉与语言模型的覆盖。