Conformal Selective Acting: 为RLVR训练的LLM提供任意时刻有效的风险控制

arXiv cs.LG 论文

摘要

介绍了Conformal Selective Acting (CSA),一种用于RLVR训练的LLM的部署时包装器,它提供了对单个流的任意时刻有效的选择性风险控制,从而在不进行池化或长期平均的情况下,能够在受监管环境中安全部署。

arXiv:2605.20270v1 公告类型:新 \n 摘要:一个本地专家LLM,通过基于可验证奖励的强化学习(RLVR)在运营商本地数据上进行微调,部署在受监管的组织中,具有每次部署的错误预算$\alpha$。运营商需要为该部署的每个轮次的流提供安全证书:不能跨部署池化,也不能等待长期平均值。现有的包装器无法在自适应、在线更新的流上实现这一点:离线共形风险方法要求可交换性;在线共形方法仅限定了长期平均值;非可交换扩展是边际有效的;最接近的任意时刻包装器A-RCPS控制的是边际风险而非选择性风险。使用(检验统计量、有效性保证、部署规则)框架,我们识别出部署要求强制产生的一个空单元格:每个阈值的e过程、选择性风险、任意时刻路径有效性、最大认证阈值规则。Conformal Selective Acting (CSA) 作为逐轮包装器填补了该空白,在Bonferroni网格上维护每个阈值的Ville型e过程,并针对RLVR过滤进行评估。在可预测更新和等渗校准单调风险下,我们证明了 (i) 任意时刻路径选择性风险界 $R_T^{\mathrm{act}}\le\alpha+O(N_T^{-1/2})$,(ii) 与 $\Theta(\bar\eta^{-2}\log(1/\delta))$ 匹配的最优速率认证,以及 (iii) 与视界无关的发布率差距。在八个专业基准测试(480个流)、十六个对抗性分布转移单元格(160个流)以及五个实时的专家迭代(Expert-Iteration)RLVR单元格(包含基于三个架构家族中四个基础模型的在线LoRA,共10,300轮)中,CSA是所比较的十种方法中唯一满足路径有效性并能在每个单元格上非拒绝部署的方法。我们不提出新的LLM、训练算法或策略类别;CSA是部署端的补充,与模型正交,适用于无法使用前沿API的运营商。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:21

# 一致性选择性行动:面向RLVR训练LLM的随时有效风险控制
来源:https://arxiv.org/html/2605.20270

Hamed Khosravi  
佐治亚理工学院  
hkhosravi7@gatech\.edu  

& Xiaoming Huo  
佐治亚理工学院  
huo@gatech\.edu  

###### 摘要

一个本地专家大语言模型,使用操作员本地数据通过可验证奖励强化学习(RLVR)进行微调,部署在单一受监管组织内,并满足每次部署的错误预算α。操作员需要一个安全证书,在该部署的数据流上,在每一个实时的轮次中同时成立:不能跨部署进行池化,不能等待长期平均值。现有包装器无法在自适应的、在线更新的数据流上提供此保证:离线一致性风险方法要求可交换性;在线一致性方法仅约束长期平均值;非可交换性扩展仅保证边际有效性;而最接近的随时包装器A-RCPS控制的是边际风险而非选择性风险。通过一个(检验统计量, 有效性保证, 部署规则)框架,我们识别出一个由部署要求强制产生的空单元(每个阈值的e过程, 选择性风险, 随时路径有效性, 最大认证阈值规则);一致性选择性行动(CSA)填补了这一空白,作为一种每轮包装器,在Bonferroni网格上为每个候选分数阈值维护一个Ville型e过程,并针对RLVR过滤进行评估。在可预测更新和保序校准的单调风险假设下,我们证明了(i) 一个随时路径选择性风险界 \(R_{T}^{\mathrm{act}} \leq \alpha + O(N_T^{-1/2})\),(ii) 与 \(\Theta(\bar{\eta}^{-2}\log(1/\delta))\) 匹配的最优速率认证,以及 (iii) 一个与时间范围无关的发布率差距。在八个专家基准测试(480个数据流)、十六个对抗性分布偏移场景(160个数据流)以及五个在线LoRA的实时Expert-Iteration RLVR场景(涵盖三种架构家族的四个基础模型,总计10,300轮)中,CSA是直接比较的十种方法中唯一在每个场景中同时满足路径有效性和非拒绝部署的方法。我们不提出新的LLM、训练算法或策略类别;CSA是部署端的补充组件,与模型本身正交,适用于无法使用前沿API的操作员。

## 1 应用环境

##### 一个激励性的场景。某地区医院部署了一个私有的临床问答助手,这是一个Med42-8B变体,在其电子病历库上进行微调,并通过在线LoRA每周更新。其商业伙伴协议将验证器标记的输出(那些未通过基于规则的剂量、禁忌症或指南引用检查的输出)限制在该医院数据流上所有“已发布”答案的5%,且持续评估。医院不能与其他同行医院合并(数据驻留禁止遥测导出),不能等待季度平均值(早期的失败集群本身就是违反SLA),也不能路由到前沿API(受HIPAA、延迟和领域微调限制)。医院是贯穿始终的例子,但该方法适用于任何具有相同模式的情况:一个本地专家模型、一个确定性验证器以及对不可合并数据流的每次部署风险预算。我们研究的其他三个领域(法律引用审查、财务报告、受监管科学问答)使用不同的验证器实例化相同的结构,并且该框架扩展到任何符合这三个要素的操作员场景(合规审计、代码审查门控、科学声明筛选)。本文提供了此类操作员所需的部署时包装器。

##### 部署单元。本文涉及的是本地专家大语言模型,这些模型通过可验证奖励强化学习(RLVR)(Guo等人,2025 (https://arxiv.org/html/2605.20270#bib.bib1);Lambert等人,2025 (https://arxiv.org/html/2605.20270#bib.bib2);Kimi Team,2025 (https://arxiv.org/html/2605.20270#bib.bib3))在操作员本地领域数据上进行微调,并部署在单一监管组织内部:一家医院、一家律所、一个财务报告单位、一个受监管科学问答服务。该模型是领域专家,而非前沿API调用;输入分布狭窄;下面的实证研究涵盖四个此类领域:临床(运行示例)、法律、财务和受监管科学。

##### 部署循环。在每一轮t,模型提出一个输出 \(\widetilde{Y}_t\),一个确定性验证器V(临床规则检查、法律引用匹配、算术检查、数学评分)返回一个二进制信号 \(V_t \in \{0,1\}\),操作员决定是否发布该输出。模型在部署时并非冻结:在生产专家部署中,策略通过在线LoRA(Hu等人,2022 (https://arxiv.org/html/2605.20270#bib.bib10))或持续策略梯度在操作员本地数据上进行更新。因此,RLVR不仅是一种训练范式,也是一种部署范式;它产生一个数据生成分布本身是非平稳的数据流。

##### 契约。操作员的合同或监管环境对发布的输出施加了每次部署的错误预算 \(\alpha \in (0,1)\),根据验证器在该部署的数据流上进行评估。该预算不是针对边际跨部署总体的:这家医院的合同针对的是该医院的数据流,操作员通常不能合并,不能将遥测数据发送到中心A/B测试,也不能等待长期平均值。前沿API替代方案(ChatGPT、Claude、Gemini)明确不在本文的比较集内:数据驻留、延迟、微调需求和每token成本共同导致它们不适合作为本地专家本身;本地专家的存在正是为了填补它们无法扮演的角色。我们推导的保证是相对于验证器V的;V范围之外的危害需要补充性的保护措施。

##### 贡献。
1. 一个测试超鞅框架(第3节 (https://arxiv.org/html/2605.20270#S3)),根据其(统计量、有效性、部署规则)三元组对先前的风险控制包装器进行分类,并识别出一个空单元。
2. *一致性选择性行动*(CSA,第4节 (https://arxiv.org/html/2605.20270#S4)),唯一填充该单元的实例化:在Bonferroni网格上使用每阈值Ville型e过程,并采用最大认证阈值部署规则。
3. 随时路径选择性风险有效性(定理5.1 (https://arxiv.org/html/2605.20270#S5.Thmtheorem1)),与上下界匹配的最优速率认证(定理5.3 (https://arxiv.org/html/2605.20270#S5.Thmtheorem3)和5.4 (https://arxiv.org/html/2605.20270#S5.Thmtheorem4)),以及一个与时间范围无关的效用差距(定理5.5 (https://arxiv.org/html/2605.20270#S5.Thmtheorem5))。
4. 在480+100+160个复制的数据流上,涵盖八个专家基准测试、四个基础模型(来自三个架构家族)、以及十六个对抗性排序,CSA是直接比较的十种方法中唯一在每个场景中同时满足路径有效性和非拒绝部署的方法。

## 2 为何在此设置中随时有效性至关重要

##### 部署端:路径性和随时性是由契约强制要求的。第1节 (https://arxiv.org/html/2605.20270#S1)的契约是针对每个部署、针对该数据流、在每一个实时轮次进行评估的。早期在前一千个发布输出中的失败峰值并非可以随着后续十万个输出平均掉的噪声;这是违反SLA(Ji等人,2023 (https://arxiv.org/html/2605.20270#bib.bib27);Busch等人,2025 (https://arxiv.org/html/2605.20270#bib.bib28))。*边际时间*有效性(例如NEX-Conf (Barber等人,2023 (https://arxiv.org/html/2605.20270#bib.bib21)))针对的是错误的概率度量:当契约是针对某家医院时,不存在可以边际化的医院总体。*长期平均*有效性(ACI (Gibbs and Candès,2021 (https://arxiv.org/html/2605.20270#bib.bib16)),SAOCP (Bhatnagar等人,2023 (https://arxiv.org/html/2605.20270#bib.bib17)))针对的是错误的时间范围:平均值无法消除已经发生的事件。

##### 模型端:弱本地基础放大了随时性要求。本地专家在长尾部分并非前沿模型。即使在RLVR微调之后,我们实证研究中使用的基模型(Fleming-R1 (Liu等人,2025a (https://arxiv.org/html/2605.20270#bib.bib44))、Fin-R1 (Liu等人,2025b (https://arxiv.org/html/2605.20270#bib.bib45))、Saul-7B (Colombo等人,2024 (https://arxiv.org/html/2605.20270#bib.bib46))、Med42-8B (Christophe等人,2024 (https://arxiv.org/html/2605.20270#bib.bib50))、Qwen2.5-Math-7B (Yang等人,2024 (https://arxiv.org/html/2605.20270#bib.bib48)))在其目标基准测试上的验证器失败率为55–34%(表9 (https://arxiv.org/html/2605.20270#A6.T9))。因此,在前一千个输出中出现5个百分点的峰值在专家的*典型*操作点上是可能的,而非尾部。结合部署端的论证:针对假设合并总体的边际保证对于本地专家来说是一个双重错误的目标;它在错误的时间范围上验证了错误的度量。只有随时路径选择性风险控制才能同时满足这两个轴。

##### 事后测试的逃生通道已关闭。自然的组合设计(事后对策略的发布输出运行序贯测试)是无效的,而不仅仅是宽松。得分 \(S_t\) 是 \(\mathcal{F}_{t-1}\) 可测的,并且在每个梯度或在线LoRA步骤中与策略同时更新,从而同时改变了条件验证器失败分布。因此,基于先前得分图校准的测试针对的是与后续轮次不同的概率度量;其覆盖保证不能跨更新传递。有效的认证要求检验统计量相对于驱动RL优化器的相同过滤 \(\mathcal{F}_{t-1}\) 是可预测的,这一要求在第4节 (https://arxiv.org/html/2605.20270#S4)中通过构造得到满足。

## 3 通过测试超鞅框架的相关工作

### 3.1 包装器-作为-三元组框架

我们通过一个三元素抽象来组织先前的包装器和CSA。在每一轮t,第1节 (https://arxiv.org/html/2605.20270#S1)的部署协议产生 \((X_t, S_t, \widetilde{Y}_t, A_t, V_t)\) 适应于过滤 \(\mathcal{F}_t\)。每个包装器包含(i)一个*检验统计量* \(\{M_t(q)\}_t\),在 \((\mathcal{F}_t)\) 上可预测,并由超参数q索引;(ii)一个针对 \(\{M_t(q)\}\) 的*有效性保证*,属于以下四种类型之一:fh(固定时间范围高概率)、lra(长期平均)、mt(边际时间)或ap(随时路径,对所有T同时在每个实现的数据流上成立);以及(iii)一个*部署规则*,将认证集 \(\{q: M_t(q) \text{ admissible}\}\) 映射到每轮动作。

##### 唯一的随时路径对象,以及边际/选择性区分。一个非负 \((\mathcal{F}_t)\) -超鞅 \(M_t\) 满足 \(E M_0 \leq 1\),则满足Ville不等式(Waudby-Smith and Ramdas,2024 (https://arxiv.org/html/2605.20270#bib.bib26);Wald,1945 (https://arxiv.org/html/2605.20270#bib.bib25)):\(P(\sup_t M_t \geq 1/\delta) \leq \delta\),对所有t同时成立,在每个实现的数据流上,无需可交换性。*任何声称ap有效性的包装器因此必须简化为维护一个(超)鞅*:CSA使用每阈值e过程的结构性原因。正交地,*边际*统计量由 \(1\{\-}V_t\) 构建(每一轮都贡献);*选择性*统计量由 \(A_t (1\{\-}V_t)\) 构建(仅已发布轮次贡献)。两者测试不同的概率度量,不可互换;这使CSA与A-RCPS(Xu等人,2024 (https://arxiv.org/html/2605.20270#bib.bib12))区分开来,后者实现了ap有效性,但基于边际统计量。

### 3.2 作为框架单元的先前包装器

表1 (https://arxiv.org/html/2605.20270#S3.T1)对十三个基线进行了分类。*固定时间范围离线*方法(LTT (Angelopoulos等人,2022 (https://arxiv.org/html/2605.20270#bib.bib18)),CRC (Angelopoulos等人,2024 (https://arxiv.org/html/2605.20270#bib.bib19)),ConfFact (Mohri and Hashimoto,2024 (https://arxiv.org/html/2605.20270#bib.bib20)),和Conf-Arb. (Overman and Bayati,2025 (https://arxiv.org/html/2605.20270#bib.bib34));RCPS (Bates等人,2021 (https://arxiv.org/html/2605.20270#bib.bib30))是它们扩展的框架)在保持不变的阈值规则下,在留出的可交换校准集上维护一个经验风险统计量;在第1节 (https://arxiv.org/html/2605.20270#S1)的非可交换RLVR数据流上,它们要么失去有效性,要么拒绝。*长期平均在线*方法(ACI (Gibbs and Candès,2021 (https://arxiv.org/html/2605.20270#bib.bib16)),SAOCP (Bhatnagar等人,2023 (https://arxiv.org/html/2605.20270#bib.bib17)))维护一个误覆盖统计量,并动态调整阈值以*平均而言*跟踪α,不提供路径控制。*边际时间非可交换*方法(NEX-Conf (Barber等人,2023 (https://arxiv.org/html/2605.20270#bib.bib21)),CoFact (Hu等人,2026 (https://arxiv.org/html/2605.20270#bib.bib33)))通过估计的密度比重新加权非一致性得分;得到的边界在单个t处有效,但不能在t上同时成立。*最接近的未中目标*是A-RCPS(Xu等人,2024 (https://arxiv.org/html/2605.20270#bib.bib12)):它维护一个e过程并且是ap有效的(有效性的正确形式),但e过程建立在边际增量 \(1\{\-}V_t\) 上,而不是选通的选择性增量 \(A_t ((1-V_t)-\alpha)\)。选择性风险不能从边际风险推导出来;需要一个不同的统计量,这正是第4节 (https://arxiv.org/html/2605.20270#S4)所构建的。空单元,*每阈值e过程、选择性风险、随时路径有效性、最大认证阈值规则*,是CSA所处的位置。与CAP (Bao等人,2025 (https://arxiv.org/html/2605.20270#bib.bib31))、OCP (Weinstein and Ramdas,2020 (https://arxiv.org/html/2605.20270#bib.bib32))、CoFact和Conf-Arb.的直接比较见附录F (https://arxiv.org/html/2605.20270#A6)。

表1:根据第3.1节 (https://arxiv.org/html/2605.20270#S3.SS1)的框架三元组分类的先前包装器,并附有部署端属性。*Stat.*:检验统计量的形式(\(\hat{r}\) = 校准集上的经验风险;mc = 误覆盖;nc = 非一致性;E = e过程)。*Risk*:边际(m) vs. 选择性(s)。*Validity*:fh = 固定时间范围高概率、lra = 长期平均、mt = 边际时间、ap = 随时路径。*Rule*:部署规则(cnst = 常数阈值;dyn = 动态单一阈值;tv-λ = 时变λ;max-cert = 网格上的最大认证阈值)。*NE*:容忍非可交换性;*Up*:容忍更新的得分/策略;*UG*:经认证的与时间范围无关的效用差距边界。† = 仅附录或协议不匹配。

| 方法 | Stat. | Risk | Validity | Rule | NE | Up | UG |
|------|-------|------|----------|------|----|----|----|
| OCP (Weinstein and Ramdas, 2020) (https://arxiv.org/html/2605.20270#bib.bib32)† | nc | m | ap | dyn | ✓ | | |
| ACI (Gibbs and Candès, 2021) (https://arxiv.org/html/2605.20270#bib.bib16) | mc | m | lra | dyn | ✓ | ✓ | |
| RCPS (Bates et al., 2021) (https://arxiv.org/html/2605.20270#bib.bib30)† | \(\hat{r}\) | s | fh | cnst | | | |
| LTT (Angelopoulos et al., 2022) (https://arxiv.org/html/2605.20270#bib.bib18) | \(\hat{r}\) | s | fh | cnst | | | |

相似文章

通过自适应安全约束实现非平稳环境下的安全持续强化学习

arXiv cs.LG

提出LILAC+框架,用于非平稳环境下的安全持续强化学习,该框架采用三种自适应安全机制:基于上下文的安全约束、适应速度约束和预算到状态的安全执行。在模拟驾驶环境中的评估表明,在分布偏移下,该框架减少了安全违规,同时保持了竞争性的性能。

CRMA: 一种用于LLM模块化持续微调的谱界主干

arXiv cs.LG

CRMA引入了一种谱界残差适配器,通过Sinkhorn归一化强制实现双随机混合矩阵,使LLM能够持续微调而不发生灾难性遗忘。在Mistral-7B和Gemma-2-9B上的实验结果表明,与冻结基底的基线相比,后向迁移得到改善,遗忘减少。