保形风险控制何时能为LLM输出提供认证?界限、不可能性与结构化生成的适应性
摘要
本文刻画了保形风险控制何时能为结构化LLM输出提供认证,证明了不可能性界限,并分析了不同界限下的认证层次。在六个开放权重模型上的实证验证表明,困难配置在低风险水平下无法被认证,但在放宽目标下可实现实际认证。
arXiv:2606.29054v1 公告类型:新
摘要:用于结构化生成(NER、JSON提取、QA和分类)的大型语言模型(LLM)缺乏形式化的可靠性保证,标准的启发式弃权策略会偏离用户指定的风险目标7.5%--12.5%。我们刻画了保形风险控制(CRC)何时能为结构化LLM输出提供认证,以及何时在数学上不可能。首先,我们证明了一个不可能结果:当基础风险(μ > α)时,任何无分布方法必须至少在((μ-α)/(1-α))个例子上弃权,从而得出一个闭式可行性检验:可以在运行CRC之前检查它是否有效。其次,我们分析了Hoeffding界、经验Bernstein界和基于赌博的e-CRC界之间的认证层次,在低方差/大样本情况下有严格收益:Hoeffding-to-Bernstein步骤带来了最大收益(认证配置增加+37%),而e-CRC在标定数据稀缺时增加价值(20%数据时10%认证对比Hoeffding的0%)。第三,我们验证了跨数据集漂移下的自适应保形推理(ACI),将风险目标违规率从71%降低到21%,残余失败正好集中在不可能性界限预测的地方。在六个开放权重模型(3B--72B参数)、八个数据集、四个任务和六个不一致性分数上,困难的NER/QA/CLS配置在α=0.10时不可认证;放宽到α=0.30--0.40可实现实际认证(NER 47%、QA 40%、CLS 60%)。该框架提供了一个三步部署方案:检查可行性、选择界限和分数、然后缓解漂移。
查看缓存全文
缓存时间: 2026/06/30 05:31
# 共形风险控制何时能认证大语言模型输出?——结构化生成的界限、不可能性与自适应
来源:https://arxiv.org/html/2606.29054
###### 摘要
用于结构化生成(命名实体识别、JSON提取、问答和分类)的大语言模型缺乏形式化可靠性保证,标准的启发式弃权策略会偏离用户指定的风险目标7.5–12.5%。我们刻画了共形风险控制(CRC)何时能认证结构化LLM输出,以及何时理论上无法认证。首先,我们证明了一个不可能性结果:当基础风险μ > α时,任何无分布方法必须至少放弃(μ−α)/(1−α)的样本,从而得到一个闭式可行性检验:可在运行CRC之前检查其是否有效。其次,我们分析了Hoeffding、经验Bernstein和基于赌注的e-CRC界限之间的认证层级Λ_Hoeff* ⊆ Λ_Bern* ⊆ Λ_e-CRC*,在低方差/大样本场景下严格增益:Hoeffding→Bernstein步骤带来最大增益(认证配置增加37%),而e-CRC在校准数据稀缺时增加价值(20%数据时认证10%,而Hoeffding为0%)。第三,我们在跨数据集漂移下验证了自适应共形推断(ACI),将风险目标违规从71%降至21%,残余失败恰好集中在不可能性界限预测的位置。在六个开源模型(3B–72B参数)、八个数据集、四个任务和六个非一致性分数上,硬NER/QA/CLS配置在α=0.10时不可认证;放宽至α=0.30–0.40可解锁实际认证(NER 47%,QA 40%,CLS 60%)。该框架提供了一个三步部署方案:检查可行性,选择界限和分数,然后缓解漂移。代码和配置将在清理后发布。
共形风险控制,共形预测,大语言模型,选择性预测,不确定性量化,命名实体识别,e值,赌注,分布漂移,自适应共形推断,结构化生成
## 1 引言
大语言模型用于结构化生成:提取命名实体、解析JSON、回答事实性问题以及对输入进行分类,此时输出必须匹配模式并可对照真实值评分。但它们在输出质量上没有任何保证。模型可能输出错误的实体跨度或错误答案,且完全自信且无任何异常信号。在医学NER、法律提取或金融解析中,无声错误代价高昂,而启发式方法无法保证不会发生。标准的不确定性量化(token概率、熵阈值、温度缩放)对结构化输出失准,因为损失是在实体、字段或语义单元级别定义的(Guo等,2017(https://arxiv.org/html/2606.29054#bib.bib30);Kadavath等,2022(https://arxiv.org/html/2606.29054#bib.bib29);Kuhn等,2023(https://arxiv.org/html/2606.29054#bib.bib32);Farquhar等,2024(https://arxiv.org/html/2606.29054#bib.bib33))。启发式弃权策略经常偏离用户指定的风险目标7.5–12.5%。医学NER使这一点具体化:假设我们希望保证≤10%的实体级错误。如果模型在部署群体上的基础风险μ高于10%,那么没有后处理方法能在不对大多数输入弃权的情况下达到该目标。启发式方法永远看不到这个下限;我们的不可能性结果以闭式计算它。
我们提出一个先于“哪个界限最紧?”的问题:共形风险控制(CRC)(Angelopoulos等,2024(https://arxiv.org/html/2606.29054#bib.bib3);Bates等,2021(https://arxiv.org/html/2606.29054#bib.bib6))何时能认证结构化LLM输出,以及何时无论采用何种方法认证都理论上不可能?这一刻画是我们的主要贡献。我们分析了一个认证层级(Hoeffding ⊆ Bernstein ⊆ e-CRC,我们的基于赌注的界限),在低方差/大样本场景下严格增益,展示了哪里更紧的界限有帮助:主要在低方差场景下,仅Hoeffding→Bernstein步骤就恢复了37%以上的认证。e-CRC界限作为其最紧成员完成层级,在数据稀缺设置中增加额外价值。
我们不可能性界限(命题3(https://arxiv.org/html/2606.29054#Thmtheorem3))背后的代数是基础的;贡献在于将其识别为面向部署的刻画:当基础风险μ > α时,任何无分布方法必须对至少≥(μ−α)/(1−α)的样本弃权才能认证。附录表6(https://arxiv.org/html/2606.29054#A8.T6)显示这些预测与3B–72B模型上观察到的行为高度匹配。这重新排序了问题:第一个问题不是“哪个界限?”而是“μ < α?”。如果是,使用方差感知界限;如果不是,改进模型,放宽α,或部署自适应方法。
我们通过广泛的CRC结构化生成实证研究验证了这一框架,包括跨数据集迁移下自适应共形推断(ACI)(Gibbs和Candès,2021(https://arxiv.org/html/2606.29054#bib.bib22))的评估。该框架补充了LLM的同期CRC风格工作:Quach等(2024(https://arxiv.org/html/2606.29054#bib.bib7))通过校准采样停止和拒绝规则将共形预测应用于语言模型生成;Mohri和Hashimoto(2024(https://arxiv.org/html/2606.29054#bib.bib8))通过共形退避认证事实性声明;Abbasi-Yadkori等(2024(https://arxiv.org/html/2606.29054#bib.bib9))使用共形预测对幻觉输出弃权;Gui等(2024(https://arxiv.org/html/2606.29054#bib.bib10))将共形透镜扩展到对齐保证。这些方法侧重于*哪种*共形程序适用于LLM输出;我们研究*何时*任何此类程序在任务特定结构化损失下能成功,以及当不能成功时需要的最小弃权。配套工作Kotte(2026(https://arxiv.org/html/2606.29054#bib.bib38))处理多阶段流水线的联合覆盖,与本文分析的单输出认证设置互补。
#### 贡献。
1. **不可能性结果与可行性刻画**。我们证明当μ > α时,任何有效方法必须对≥(μ−α)/(1−α)的样本弃权(命题3(https://arxiv.org/html/2606.29054#Thmtheorem3)),提供了一个闭式可行性检验。我们显示该界限与3B–72B模型上观察到的认证紧密匹配,并且放宽α至0.30–0.40可使硬任务变得可认证(NER 47%,QA 40%,CLS 60%)。
2. **界限层级**。我们建立了认证层级Λ_Hoeff* ⊆ Λ_Bern* ⊆ Λ_e-CRC*(在低方差/大样本场景下),并在656个配置上验证:Hoeffding→Bernstein步骤提供最大增益(+37%),而e-CRC完成层级,在数据稀缺场景下增加额外价值。
3. **漂移下的ACI**。结构化生成在时间漂移(60%→4%违规)、严重度扫描和跨数据集迁移(71%→21%)下的实证ACI验证。
4. **分数融合与基准**。校准分数融合在89%的配置上改进AUROC。评估涵盖三个系列的六个模型(3B–72B)、八个数据集、四个任务和六个分数。
表1:与密切相关工作线的定位。我们的目标不是新的共形原语,而是面向部署的结构化LLM生成刻画:可行性(通过μ vs. α)、最紧界限和漂移适应。
## 2 方法
#### 问题设置。
LLM f: X → Y 产生预测ŷ = f(x)。置信度分数s(x, ŷ) ∈ [0,1]量化可靠性;选择性预测器在s ≥ λ时输出ŷ,否则弃权。我们寻求λ*使得
E[R_task(Ŷ,Y) | s(X) ≥ λ*] ≤ α, (1)
以概率≥ 1−δ成立,其中R_task是任务特定风险,α是用户指定的目标。我们定义四个风险函数:R_NER = 1−F1_entity,R_JSON = 1−F1_field,R_QA = 1−I(EM),R_CLS = 1−I(correct);所有风险有界于[0,1],满足CRC要求(Angelopoulos等,2024(https://arxiv.org/html/2606.29054#bib.bib3),2025(https://arxiv.org/html/2606.29054#bib.bib4))。CRC和Learn-Then-Test框架的背景见附录A(https://arxiv.org/html/2606.29054#A1)。
#### CRC校准。
给定校准数据{(x_i, y_i)}_{i=1}^n,我们计算分数s_i和风险r_i。对于每个候选阈值λ,令E_λ = {i: s_i ≥ λ}为发射集。我们计算Hoeffding上置信界(UCB):
U_H(λ) = ^R(λ) + √(log(2/δ)/(2|E_λ|))
并选择λ* = min{λ: U_H(λ) ≤ α}。测试时,我们发射s ≥ λ*的预测,否则弃权。这在可交换性下提供了有限样本保证P(E[R|s≥λ*] > α) ≤ δ。
### 2.1 基于赌注的CRC(e-CRC)
标准CRC使用Hoeffding UCB U_H(λ) = ^R(λ) + √(log(2/δ)/(2n_λ)),它忽略了方差。经验Bernstein界(Maurer和Pontil,2009(https://arxiv.org/html/2606.29054#bib.bib19))结合了样本方差σ̂²:
U_B(λ) = ^R + √(2σ̂² log(2/δ)/n_λ) + 7log(2/δ)/(3(n_λ−1)), (2)
该界在σ̂² < 1/4时比Hoeffding更紧(适用于我们所有数据集;见表3(https://arxiv.org/html/2606.29054#S3.T3))。我们进一步使用测试-通过-赌注框架(Shafer,2021(https://arxiv.org/html/2606.29054#bib.bib13);Waudby-Smith和Ramdas,2024(https://arxiv.org/html/2606.29054#bib.bib14);Ramdas等,2023(https://arxiv.org/html/2606.29054#bib.bib15);Grünwald等,2024(https://arxiv.org/html/2606.29054#bib.bib16);Vovk和Wang,2021(https://arxiv.org/html/2606.29054#bib.bib18))。对于每个候选λ,我们在发射集E_λ上构建财富过程:W_0=1,W_j = W_{j-1}(1 + κ_j(α − r_j)),其中κ_j是限于[0,0.5]的Kelly最优赌注。如果W_m ≥ 1/δ,我们认证λ(完整伪代码见附录B(https://arxiv.org/html/2606.29054#A2))。
###### 定理1(基于赌注的风险有效性)。
对于可交换的校准数据,e-CRC过程满足
P(E[R(λ*)] > α 且 λ* 被认证) ≤ δ。
###### 证明概要。
在H_0: E[R] ≥ α下,财富{W_j}是一个非负上鞅。根据Ville不等式(Howard等,2021(https://arxiv.org/html/2606.29054#bib.bib17)),P(sup_j W_j ≥ 1/δ) ≤ δ。完整证明见附录E(https://arxiv.org/html/2606.29054#A5)。∎
###### 命题2(界限排序)。
固定一个校准集,其风险r_i ∈ [0,1],共享候选阈值集,置信水平δ(要求n_λ ≥ 2以使Bernstein有定义)。那么在此校准集上认证的阈值集满足
Λ_Hoeff* ⊆ Λ_Bern* ⊆ Λ_e-CRC*。
在方差感知界更紧的体制中(大的n_λ,或σ̂²远低于1/4),该排序在校准样本条件上确定性地成立;可交换性仅对每个方法的有效性保证必要。当发射集上的条件方差相对1/4较小时,包含关系是严格的。直觉:Hoeffding将R视为[0,1]上的最坏情况均匀分布;Bernstein利用低方差收紧UCB;e-CRC通过顺序赌注完全适应经验分布。每个方法严格减小置信区间宽度,认证前一种方法无法认证的阈值。证明见附录E(https://arxiv.org/html/2606.29054#A5)。
### 2.2 认证的基本极限
###### 命题3(最小弃权下界)。
对于任何无分布选择性预测器,满足E[R|emit] ≤ α以概率≥ 1−δ成立,那么
弃权 ≥ (μ−α)/(1−α) − O(√(log(1/δ)/n)),
其中μ = E[R]是基础风险。
###### 证明概要。
将基础风险分解为发射和弃权部分:μ = E[R|emit]·p + E[R|abstain](1−p),其中p = P(emit)。风险保证要求E[R|emit] ≤ α;由于R ∈ [0,1],有E[R|abstain] ≤ 1,因此μ ≤ αp + (1−p),迫使p ≤ (1−μ)/(1−α)且弃权 ≥ (μ−α)/(1−α)。带有限样本常数的完整证明见附录E(https://arxiv.org/html/2606.29054#A5)。∎
#### 为何这重要(超越代数)。
不等式本身来自一个简单分解,但其作用在此是新的:它是结构化LLM生成中风险控制弃权的部署可行性检验。经典的拒绝选项和选择性预测工作研究准确率-覆盖权衡(Chow,1970(https://arxiv.org/html/2606.29054#bib.bib24);Shalev-Shwartz和Ben-David,2014(https://arxiv.org/html/2606.29054#bib.bib28);Geifman和El-Yaniv,2017(https://arxiv.org/html/2606.29054#bib.bib26)),但并未将此权衡与复杂结构化损失的CRC风格无分布风险保证联系起来。在我们的设置中,该界限以闭式解释了为什么许多NER/QA/CLS配置即使在严格α下使用复杂界限也无法认证,并且它预测了我们在3B–72B模型中观察到的弃权水平(附录表6(https://arxiv.org/html/2606.29054#A8.T6))。
### 2.3 分数融合与自适应推断
#### 校准分数融合。
单个分数上限相似文章
Conf-Gen: 面向生成模型的共形不确定性量化
介绍Conf-Gen,一个将共形风险控制适配到生成模型的框架,为大语言模型、图像生成器和AI智能体提供形式化的不确定性保证。
Conformal Selective Acting: 为RLVR训练的LLM提供任意时刻有效的风险控制
介绍了Conformal Selective Acting (CSA),一种用于RLVR训练的LLM的部署时包装器,它提供了对单个流的任意时刻有效的选择性风险控制,从而在不进行池化或长期平均的情况下,能够在受监管环境中安全部署。
超越表面统计:通过内部表示实现LLM鲁棒共形预测
本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。
通过Rockafellar-Uryasev共形推断实现条件风险价值的对抗鲁棒控制
本文提出了一种在线、无分布假设的框架,用于在对抗性和非平稳环境中控制条件风险价值(CVaR),具有渐近保证,并在投资组合风险管理和大型语言模型(LLM)毒性缓解中具有应用。
通过结构不确定性量化LLM逻辑推理的一致性
本文引入结构不确定性框架,通过测量采样推理解中自偏好排名的稳定性来评估LLM推理一致性,补充了传统的答案离散度方法,用于识别不可靠的推理。