保形风险控制何时能为LLM输出提供认证？界限、不可能性与结构化生成的适应性

arXiv cs.LG 2026/06/30 04:00 论文

摘要

本文刻画了保形风险控制何时能为结构化LLM输出提供认证，证明了不可能性界限，并分析了不同界限下的认证层次。在六个开放权重模型上的实证验证表明，困难配置在低风险水平下无法被认证，但在放宽目标下可实现实际认证。

arXiv:2606.29054v1 公告类型：新摘要：用于结构化生成（NER、JSON提取、QA和分类）的大型语言模型（LLM）缺乏形式化的可靠性保证，标准的启发式弃权策略会偏离用户指定的风险目标7.5%--12.5%。我们刻画了保形风险控制（CRC）何时能为结构化LLM输出提供认证，以及何时在数学上不可能。首先，我们证明了一个不可能结果：当基础风险（μ > α）时，任何无分布方法必须至少在((μ-α)/(1-α))个例子上弃权，从而得出一个闭式可行性检验：可以在运行CRC之前检查它是否有效。其次，我们分析了Hoeffding界、经验Bernstein界和基于赌博的e-CRC界之间的认证层次，在低方差/大样本情况下有严格收益：Hoeffding-to-Bernstein步骤带来了最大收益（认证配置增加+37%），而e-CRC在标定数据稀缺时增加价值（20%数据时10%认证对比Hoeffding的0%）。第三，我们验证了跨数据集漂移下的自适应保形推理（ACI），将风险目标违规率从71%降低到21%，残余失败正好集中在不可能性界限预测的地方。在六个开放权重模型（3B--72B参数）、八个数据集、四个任务和六个不一致性分数上，困难的NER/QA/CLS配置在α=0.10时不可认证；放宽到α=0.30--0.40可实现实际认证（NER 47%、QA 40%、CLS 60%）。该框架提供了一个三步部署方案：检查可行性、选择界限和分数、然后缓解漂移。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:31

# 共形风险控制何时能认证大语言模型输出？——结构化生成的界限、不可能性与自适应
来源：https://arxiv.org/html/2606.29054

###### 摘要

用于结构化生成（命名实体识别、JSON提取、问答和分类）的大语言模型缺乏形式化可靠性保证，标准的启发式弃权策略会偏离用户指定的风险目标7.5–12.5%。我们刻画了共形风险控制（CRC）何时能认证结构化LLM输出，以及何时理论上无法认证。首先，我们证明了一个不可能性结果：当基础风险μ > α时，任何无分布方法必须至少放弃(μ−α)/(1−α)的样本，从而得到一个闭式可行性检验：可在运行CRC之前检查其是否有效。其次，我们分析了Hoeffding、经验Bernstein和基于赌注的e-CRC界限之间的认证层级Λ_Hoeff* ⊆ Λ_Bern* ⊆ Λ_e-CRC*，在低方差/大样本场景下严格增益：Hoeffding→Bernstein步骤带来最大增益（认证配置增加37%），而e-CRC在校准数据稀缺时增加价值（20%数据时认证10%，而Hoeffding为0%）。第三，我们在跨数据集漂移下验证了自适应共形推断（ACI），将风险目标违规从71%降至21%，残余失败恰好集中在不可能性界限预测的位置。在六个开源模型（3B–72B参数）、八个数据集、四个任务和六个非一致性分数上，硬NER/QA/CLS配置在α=0.10时不可认证；放宽至α=0.30–0.40可解锁实际认证（NER 47%，QA 40%，CLS 60%）。该框架提供了一个三步部署方案：检查可行性，选择界限和分数，然后缓解漂移。代码和配置将在清理后发布。

共形风险控制，共形预测，大语言模型，选择性预测，不确定性量化，命名实体识别，e值，赌注，分布漂移，自适应共形推断，结构化生成

## 1 引言

大语言模型用于结构化生成：提取命名实体、解析JSON、回答事实性问题以及对输入进行分类，此时输出必须匹配模式并可对照真实值评分。但它们在输出质量上没有任何保证。模型可能输出错误的实体跨度或错误答案，且完全自信且无任何异常信号。在医学NER、法律提取或金融解析中，无声错误代价高昂，而启发式方法无法保证不会发生。标准的不确定性量化（token概率、熵阈值、温度缩放）对结构化输出失准，因为损失是在实体、字段或语义单元级别定义的（Guo等，2017（https://arxiv.org/html/2606.29054#bib.bib30）；Kadavath等，2022（https://arxiv.org/html/2606.29054#bib.bib29）；Kuhn等，2023（https://arxiv.org/html/2606.29054#bib.bib32）；Farquhar等，2024（https://arxiv.org/html/2606.29054#bib.bib33））。启发式弃权策略经常偏离用户指定的风险目标7.5–12.5%。医学NER使这一点具体化：假设我们希望保证≤10%的实体级错误。如果模型在部署群体上的基础风险μ高于10%，那么没有后处理方法能在不对大多数输入弃权的情况下达到该目标。启发式方法永远看不到这个下限；我们的不可能性结果以闭式计算它。

我们提出一个先于“哪个界限最紧？”的问题：共形风险控制（CRC）（Angelopoulos等，2024（https://arxiv.org/html/2606.29054#bib.bib3）；Bates等，2021（https://arxiv.org/html/2606.29054#bib.bib6））何时能认证结构化LLM输出，以及何时无论采用何种方法认证都理论上不可能？这一刻画是我们的主要贡献。我们分析了一个认证层级（Hoeffding ⊆ Bernstein ⊆ e-CRC，我们的基于赌注的界限），在低方差/大样本场景下严格增益，展示了哪里更紧的界限有帮助：主要在低方差场景下，仅Hoeffding→Bernstein步骤就恢复了37%以上的认证。e-CRC界限作为其最紧成员完成层级，在数据稀缺设置中增加额外价值。

我们不可能性界限（命题3（https://arxiv.org/html/2606.29054#Thmtheorem3））背后的代数是基础的；贡献在于将其识别为面向部署的刻画：当基础风险μ > α时，任何无分布方法必须对至少≥(μ−α)/(1−α)的样本弃权才能认证。附录表6（https://arxiv.org/html/2606.29054#A8.T6）显示这些预测与3B–72B模型上观察到的行为高度匹配。这重新排序了问题：第一个问题不是“哪个界限？”而是“μ < α？”。如果是，使用方差感知界限；如果不是，改进模型，放宽α，或部署自适应方法。

我们通过广泛的CRC结构化生成实证研究验证了这一框架，包括跨数据集迁移下自适应共形推断（ACI）（Gibbs和Candès，2021（https://arxiv.org/html/2606.29054#bib.bib22））的评估。该框架补充了LLM的同期CRC风格工作：Quach等（2024（https://arxiv.org/html/2606.29054#bib.bib7））通过校准采样停止和拒绝规则将共形预测应用于语言模型生成；Mohri和Hashimoto（2024（https://arxiv.org/html/2606.29054#bib.bib8））通过共形退避认证事实性声明；Abbasi-Yadkori等（2024（https://arxiv.org/html/2606.29054#bib.bib9））使用共形预测对幻觉输出弃权；Gui等（2024（https://arxiv.org/html/2606.29054#bib.bib10））将共形透镜扩展到对齐保证。这些方法侧重于*哪种*共形程序适用于LLM输出；我们研究*何时*任何此类程序在任务特定结构化损失下能成功，以及当不能成功时需要的最小弃权。配套工作Kotte（2026（https://arxiv.org/html/2606.29054#bib.bib38））处理多阶段流水线的联合覆盖，与本文分析的单输出认证设置互补。

#### 贡献。
1. **不可能性结果与可行性刻画**。我们证明当μ > α时，任何有效方法必须对≥(μ−α)/(1−α)的样本弃权（命题3（https://arxiv.org/html/2606.29054#Thmtheorem3）），提供了一个闭式可行性检验。我们显示该界限与3B–72B模型上观察到的认证紧密匹配，并且放宽α至0.30–0.40可使硬任务变得可认证（NER 47%，QA 40%，CLS 60%）。
2. **界限层级**。我们建立了认证层级Λ_Hoeff* ⊆ Λ_Bern* ⊆ Λ_e-CRC*（在低方差/大样本场景下），并在656个配置上验证：Hoeffding→Bernstein步骤提供最大增益（+37%），而e-CRC完成层级，在数据稀缺场景下增加额外价值。
3. **漂移下的ACI**。结构化生成在时间漂移（60%→4%违规）、严重度扫描和跨数据集迁移（71%→21%）下的实证ACI验证。
4. **分数融合与基准**。校准分数融合在89%的配置上改进AUROC。评估涵盖三个系列的六个模型（3B–72B）、八个数据集、四个任务和六个分数。

表1：与密切相关工作线的定位。我们的目标不是新的共形原语，而是面向部署的结构化LLM生成刻画：可行性（通过μ vs. α）、最紧界限和漂移适应。

## 2 方法

#### 问题设置。
LLM f: X → Y 产生预测ŷ = f(x)。置信度分数s(x, ŷ) ∈ [0,1]量化可靠性；选择性预测器在s ≥ λ时输出ŷ，否则弃权。我们寻求λ*使得
E[R_task(Ŷ,Y) | s(X) ≥ λ*] ≤ α, (1)
以概率≥ 1−δ成立，其中R_task是任务特定风险，α是用户指定的目标。我们定义四个风险函数：R_NER = 1−F1_entity，R_JSON = 1−F1_field，R_QA = 1−I(EM)，R_CLS = 1−I(correct)；所有风险有界于[0,1]，满足CRC要求（Angelopoulos等，2024（https://arxiv.org/html/2606.29054#bib.bib3），2025（https://arxiv.org/html/2606.29054#bib.bib4））。CRC和Learn-Then-Test框架的背景见附录A（https://arxiv.org/html/2606.29054#A1）。

#### CRC校准。
给定校准数据{(x_i, y_i)}_{i=1}^n，我们计算分数s_i和风险r_i。对于每个候选阈值λ，令E_λ = {i: s_i ≥ λ}为发射集。我们计算Hoeffding上置信界（UCB）：
U_H(λ) = ^R(λ) + √(log(2/δ)/(2|E_λ|))
并选择λ* = min{λ: U_H(λ) ≤ α}。测试时，我们发射s ≥ λ*的预测，否则弃权。这在可交换性下提供了有限样本保证P(E[R|s≥λ*] > α) ≤ δ。

### 2.1 基于赌注的CRC（e-CRC）
标准CRC使用Hoeffding UCB U_H(λ) = ^R(λ) + √(log(2/δ)/(2n_λ))，它忽略了方差。经验Bernstein界（Maurer和Pontil，2009（https://arxiv.org/html/2606.29054#bib.bib19））结合了样本方差σ̂²：
U_B(λ) = ^R + √(2σ̂² log(2/δ)/n_λ) + 7log(2/δ)/(3(n_λ−1)), (2)
该界在σ̂² < 1/4时比Hoeffding更紧（适用于我们所有数据集；见表3（https://arxiv.org/html/2606.29054#S3.T3））。我们进一步使用测试-通过-赌注框架（Shafer，2021（https://arxiv.org/html/2606.29054#bib.bib13）；Waudby-Smith和Ramdas，2024（https://arxiv.org/html/2606.29054#bib.bib14）；Ramdas等，2023（https://arxiv.org/html/2606.29054#bib.bib15）；Grünwald等，2024（https://arxiv.org/html/2606.29054#bib.bib16）；Vovk和Wang，2021（https://arxiv.org/html/2606.29054#bib.bib18））。对于每个候选λ，我们在发射集E_λ上构建财富过程：W_0=1，W_j = W_{j-1}(1 + κ_j(α − r_j))，其中κ_j是限于[0,0.5]的Kelly最优赌注。如果W_m ≥ 1/δ，我们认证λ（完整伪代码见附录B（https://arxiv.org/html/2606.29054#A2））。

###### 定理1（基于赌注的风险有效性）。
对于可交换的校准数据，e-CRC过程满足
P(E[R(λ*)] > α 且 λ* 被认证) ≤ δ。

###### 证明概要。
在H_0: E[R] ≥ α下，财富{W_j}是一个非负上鞅。根据Ville不等式（Howard等，2021（https://arxiv.org/html/2606.29054#bib.bib17）），P(sup_j W_j ≥ 1/δ) ≤ δ。完整证明见附录E（https://arxiv.org/html/2606.29054#A5）。∎

###### 命题2（界限排序）。
固定一个校准集，其风险r_i ∈ [0,1]，共享候选阈值集，置信水平δ（要求n_λ ≥ 2以使Bernstein有定义）。那么在此校准集上认证的阈值集满足
Λ_Hoeff* ⊆ Λ_Bern* ⊆ Λ_e-CRC*。
在方差感知界更紧的体制中（大的n_λ，或σ̂²远低于1/4），该排序在校准样本条件上确定性地成立；可交换性仅对每个方法的有效性保证必要。当发射集上的条件方差相对1/4较小时，包含关系是严格的。直觉：Hoeffding将R视为[0,1]上的最坏情况均匀分布；Bernstein利用低方差收紧UCB；e-CRC通过顺序赌注完全适应经验分布。每个方法严格减小置信区间宽度，认证前一种方法无法认证的阈值。证明见附录E（https://arxiv.org/html/2606.29054#A5）。

### 2.2 认证的基本极限

###### 命题3（最小弃权下界）。
对于任何无分布选择性预测器，满足E[R|emit] ≤ α以概率≥ 1−δ成立，那么
弃权 ≥ (μ−α)/(1−α) − O(√(log(1/δ)/n))，
其中μ = E[R]是基础风险。

###### 证明概要。
将基础风险分解为发射和弃权部分：μ = E[R|emit]·p + E[R|abstain](1−p)，其中p = P(emit)。风险保证要求E[R|emit] ≤ α；由于R ∈ [0,1]，有E[R|abstain] ≤ 1，因此μ ≤ αp + (1−p)，迫使p ≤ (1−μ)/(1−α)且弃权 ≥ (μ−α)/(1−α)。带有限样本常数的完整证明见附录E（https://arxiv.org/html/2606.29054#A5）。∎

#### 为何这重要（超越代数）。
不等式本身来自一个简单分解，但其作用在此是新的：它是结构化LLM生成中风险控制弃权的部署可行性检验。经典的拒绝选项和选择性预测工作研究准确率-覆盖权衡（Chow，1970（https://arxiv.org/html/2606.29054#bib.bib24）；Shalev-Shwartz和Ben-David，2014（https://arxiv.org/html/2606.29054#bib.bib28）；Geifman和El-Yaniv，2017（https://arxiv.org/html/2606.29054#bib.bib26）），但并未将此权衡与复杂结构化损失的CRC风格无分布风险保证联系起来。在我们的设置中，该界限以闭式解释了为什么许多NER/QA/CLS配置即使在严格α下使用复杂界限也无法认证，并且它预测了我们在3B–72B模型中观察到的弃权水平（附录表6（https://arxiv.org/html/2606.29054#A8.T6））。

### 2.3 分数融合与自适应推断

#### 校准分数融合。
单个分数上限

保形风险控制何时能为LLM输出提供认证？界限、不可能性与结构化生成的适应性

相似文章

Conf-Gen: 面向生成模型的共形不确定性量化

Conformal Selective Acting: 为RLVR训练的LLM提供任意时刻有效的风险控制

超越表面统计：通过内部表示实现LLM鲁棒共形预测

通过Rockafellar-Uryasev共形推断实现条件风险价值的对抗鲁棒控制

通过结构不确定性量化LLM逻辑推理的一致性

提交意见反馈