通过Rockafellar-Uryasev共形推断实现条件风险价值的对抗鲁棒控制
摘要
本文提出了一种在线、无分布假设的框架,用于在对抗性和非平稳环境中控制条件风险价值(CVaR),具有渐近保证,并在投资组合风险管理和大型语言模型(LLM)毒性缓解中具有应用。
arXiv:2606.00320v1 公告类型: 新
摘要:我们提出了一种在线、无分布假设的框架,用于控制条件风险价值(CVaR),将共形尾部风险控制扩展到非平稳和对抗性环境。与依赖平稳性或期望线性的经典风险控制方法不同,我们的方法在任意可能随时间漂移或策略性变化的数据生成过程中,为非线性的尾部风险函数提供了可证明的安全保证。通过利用共形尾部风险控制、在线学习以及Rockafellar和Uryasev引入的CVaR变分表示之间的深层联系,我们开发了一种具有对抗遗憾保证的在线CVaR控制新方法。所提出的方法不需要对底层数据生成过程进行假设,因此在现代高风险部署场景中具有广泛的适用性。我们证明了实现的实证CVaR在目标水平上渐近可控,并且所得控制是渐近紧致的,仅存在有限样本的保守性差距。我们在投资组合风险管理和大型语言模型(LLMs)的毒性缓解中展示了我们方法的有效性,在这些场景中,罕见但灾难性的故障主导了系统风险。
查看缓存全文
缓存时间: 2026/06/02 15:41
# 基于Rockafellar-Uryasev共形推断的条件风险价值对抗鲁棒控制
来源:https://arxiv.org/html/2606.00320
###### 摘要
我们提出了一种在线、无分布框架,用于控制条件风险价值(CVaR),将共形尾部风险控制扩展到非平稳和对抗性环境。与依赖平稳性或期望线性性的经典风险控制方法不同,我们的方法在可能随时间发生策略性漂移或变化的任意数据生成过程中,为非线性尾部风险泛函提供了可证明的安全性保证。通过利用共形尾部风险控制、在线学习以及Rockafellar和Uryasev(2000)引入的CVaR变分表示之间的深层联系,我们开发了一种新的在线CVaR控制程序,并具有对抗性遗憾保证。所提出的方法不对底层数据生成过程做任何假设,使其广泛适用于现代高风险部署场景。我们证明了实现的实证CVaR在目标水平上渐近受控,并且所得控制渐近紧致,仅存在一个有限样本的O(1/√T)保守性差距。我们通过投资组合风险管理和大型语言模型(LLM)的有害性缓解展示了该方法的有效性,其中罕见但灾难性的失败主导了系统风险。
机器学习,ICML
## 1 引言
现代机器学习系统越来越多地部署在高风险和安全性关键场景中,包括金融决策、自动内容审核和大型语言模型对齐。在此类应用中,控制平均风险不足以确保系统可靠性,因为单次灾难性错误可能主导运营、法律或声誉风险。这导致人们对*尾部风险控制*的兴趣日益增长(Snell等人, 2022;Zollo等人, 2024b;Chen等人, 2025),其目标是设计学习和决策系统,使其最坏情况结果保持在可接受范围内。
图1:基于Rockafellar-Uryasev共形推断的在线CVaR控制。左:在对抗性或非平稳环境中未受控制的尾部风险导致灾难性失败。中:我们的方法将共形决策理论与AdaGrad-FTRL相结合。右:所得控制器可证明地强制执行目标CVaR水平,并具有对抗性保证。
条件风险价值(CVaR_β)是衡量尾部风险的经典且广泛采用的指标,它捕捉了在最坏100(1-β)%结果下的期望损失(Rockafellar和Uryasev, 2000)。与平均风险度量不同,CVaR明确关注罕见但灾难性的事件,使其适用于失败代价高昂且可能被策略性诱导的高风险、对抗性和非平稳环境。例如,在金融领域,CVaR是投资组合优化和监管风险管理的基本概念。在现代机器学习系统中,类似的概念自然出现。例如,在LLM部署中,CVaR衡量最具危害性生成的期望严重程度。关键是,LLM的许多部署环境本质上是*非平稳的*。因此,以*在线*方式控制CVaR的能力至关重要。总体而言,CVaR_β为压力测试和红队演练提供了原则性目标,如现有关于对抗性提示和自动测试用例生成以揭示模型漏洞的工作所示(Perez等人, 2022)。
在这项工作中,我们探讨是否可以在*在线*和*对抗性*环境中控制CVaR_β。与期望损失不同,CVaR_β是一个非线性、对尾部敏感的损失分布风险泛函,依赖于损失分布的极端分位数。防范罕见但灾难性的结果使得尾部风险控制本质上是昂贵的,因为表征CVaR_β的事件正是那些最不常观察到的事件。迄今为止,现有的在线风险控制和共形校准方法未能处理CVaR_β的内在非线性(Gibbs和Candes, 2021;Yang等人, 2024;Lekeufack等人, 2024)。特别是,广泛使用的程序如自适应共形推断(ACI)(Gibbs和Candes, 2021)、Bellman共形推断(BCI)(Yang等人, 2024)和共形决策理论(CDT)(Lekeufack等人, 2024)根本上依赖于期望的线性性,因此对CVaR_β失效。虽然最近通过L-统计量和一致界开发的共形尾部风险控制方法可以为CVaR_β提供统计保证(Chen等人, 2025;Snell等人, 2022;Deng等人, 2023;Zollo等人, 2024a;Deng等人, 2025),但这些保证并未扩展到在线、非平稳或对抗性环境。克服这些限制需要新技术,显式利用CVaR_β的变分结构。
在这项工作中,我们开发了一个在线、无分布的尾部风险控制框架,在非平稳和对抗性数据下提供可证明的安全性保证。我们的方法建立在CVaR的Rockafellar-Uryasev(RU)变分表示(Rockafellar和Uryasev, 2000)之上,将在线尾部风险控制简化为一个两级在线优化问题,结合了共形决策理论(Lekeufack等人, 2024)和AdaGrad-跟随正则化领导者(AdaGrad-FTRL)(McMahan, 2011)。所得程序不需要分布假设,并且可以证明地将实现的实证CVaR控制在目标水平,且具有渐近消失的紧致性差距。
#### 贡献。我们将主要贡献总结如下:
- • 我们提出了在非平稳和对抗性数据下的*在线CVaR控制*问题,扩展了依赖平稳性或期望线性性的现有共形和风险校准方法。
- • 我们展示了RU变分表示能够将非线性尾部风险控制原则性地简化为关于辅助阈值参数的在线遗憾最小化问题。
- • 我们提供了*可证明的安全性保证*:即使在对抗性数据下,实现序列的实证CVaR在目标水平上渐近受控。此外,所得控制渐近紧致,仅存在一个有限样本的O(1/√T)保守性差距。
- • 我们在分布偏移下的LLM有害性控制和投资组合管理上展示了该方法的实际有效性。
### 1.1 相关工作
**Rockafellar-Uryasev (RU) 表示。** Rockafellar和Uryasev (2000) 引入了CVaR_β的一个变分表示,该表示已成为风险敏感优化的基础,将尾部风险目标转化为关于辅助阈值参数的可处理优化问题。近期的几项工作强调了这种变分形式在分布偏移和数据偏差下的离线鲁棒决策中的核心作用(Sahoo等人, 2025;Lei等人, 2023)。相比之下,我们的设置本质上是离线的,因为数据顺序到达,分布可能漂移或自适应选择,目标不仅是优化静态CVaR目标,还要随时间动态控制尾部风险。因此,我们的结果通过将基于CVaR的风险控制引入顺序对抗性环境,补充并扩展了这一研究方向。
**共形决策理论。** 在共形决策理论(CDT)中(Lekeufack等人, 2024),只要存在适当的“保护”动作,单个校准参数就足以控制广泛决策类别的期望损失。类似于共形风险控制(Bates等人, 2021;Angelopoulos等人, 2025a, c),他们的技术不适用于像CVaR这样的非线性风险泛函。相比之下,我们的工作采用了与CDT根本不同的策略。
**梯度平衡。** Angelopoulos等人 (2025b) 认为标准的遗憾概念与在线不确定性量化或风险控制问题不直接相关,并提出梯度平衡作为替代。相比之下,在我们的设置中,虽然遗憾不是最终目标,但它起着至关重要的作用。我们证明,通过最小化一个精心选择的遗憾目标,可以在对抗性和非平稳环境中将CVaR_β可证明地控制在期望水平。这加深了在线学习与在线风险控制之间的联系。
**自适应FTRL (AdaGrad–FTRL)。** CVaR控制的一个核心挑战是RU阈值变量(c_t)的二次在线凸优化问题。虽然有许多无遗憾的在线优化算法可用,但我们需要一种稳定、与受约束的连续动作变量兼容且不需要手动调整阈值更新学习率的方法。为此,我们采用了一种带有AdaGrad风格缩放的自适应跟随正则化领导者(FTRL)更新(McMahan, 2011; Shalev-Shwartz, 2012; Duchi等人, 2011)。在每一轮中,通过最小化带有二次正则化的累积替代损失来选择阈值变量。这种自适应缩放根据观察到的损失行为自动调整有效步长,产生稳定且自调的更新规则,同时保留标准的无遗憾保证。
## 2 Rockafellar-Uryasev 共形推断
我们提出了用于控制CVaR_β的两级在线学习程序。第2.1节讨论了算法运行的在线设置。在第2.2节中,我们通过利用RU表示(Rockafellar和Uryasev, 2000)建立了在线CVaR控制与扩展博弈中在线遗憾最小化之间的联系。我们将在第2.3节讨论AdaGrad-FTRL方法,然后给出主要理论保证。在第2.4节和2.5节中,我们分析了算法的外部和内部更新,并讨论了它们的理论性质。
### 2.1 设置
我们考虑一个由时间t=1,2,...,T索引的在线设置。在每个时间点t,决策者选择一个校准参数λ_t,随后由自然选择损失函数R_t(λ)。我们假设所有函数R_t将[λ_min, λ_max]映射到[R_min, R_max],其中-∞ < λ_min < λ_max < ∞且-∞ < R_min < R_max < ∞。此外,我们假设函数在边界外是平坦的并取极值。R_t(λ) = {R_min, λ < λ_min; R_max, λ > λ_max}。我们考虑投资组合管理和LLM有害性控制两个应用。在这两个例子中,λ_t是[0,1]中的标量,因此决策者只需在每一轮选择一个标量。
### 2.2 通过遗憾界定CVaR
与期望不同,CVaR_β是损失分布的*非线性*泛函,不能写成每轮损失的简单平均值。因此,基于求和每轮损失的经典遗憾概念不直接适用。给定一个实现损失序列R_1, ..., R_T,我们通过Rockafellar–Uryasev变分表示定义经验CVaR:
\widehat{\operatorname{CVaR}}_\beta(R_{1:T}) := \min_{c \in \mathbb{R}} \left\{ c + \frac{1}{1-\beta} \cdot \frac{1}{T} \sum_{t=1}^T (R_t - c)_+ \right\}.
由于损失有界在[R_min, R_max]内,最小化可以等效地限制在c \in [R_min, R_max]。在没有平局的情况下,\widehat{\operatorname{CVaR}}_\beta(R_{1:T})可以近似为前100(1-β)%损失的平均值,即 \widehat{\operatorname{CVaR}}_\beta(R_{1:T}) = \frac{1}{\lfloor T(1-\beta) \rfloor} \sum_{i > \lceil T\beta \rceil} R_{(i)} + O\left(\frac{1}{T}\right),其中R_{(1)} ≤ R_{(2)} ≤ ... ≤ R_{(T)}是顺序统计量。当Tβ是整数时,余项O(1/T)消失。
根据经验CVaR的定义,我们称决策者实现了在线CVaR控制在某个目标水平α ∈ (R_min, R_max),当且仅当
\widehat{\operatorname{CVaR}}_\beta(R_1(\lambda_1), ..., R_T(\lambda_T)) ≤ α + o(1). (1)
与标准累积损失相反,\widehat{\operatorname{CVaR}}_\beta(R_{1:T})以非可加的方式依赖于整个损失序列。特别是,改变单个大损失可以同时改变分位数阈值和进入尾部平均值的点集。
利用Rockafellar-Uryasev的CVaR_β表示(Rockafellar和Uryasev, 2000),我们可以将准则(1)重新表述如下:
\min_{c \in [R_min, R_max]} \frac{1}{T} \sum_{t=1}^T \left[ c + \frac{1}{1-\beta} (R_t - c)_+ \right] ≤ α相似文章
Conformal Selective Acting: 为RLVR训练的LLM提供任意时刻有效的风险控制
介绍了Conformal Selective Acting (CSA),一种用于RLVR训练的LLM的部署时包装器,它提供了对单个流的任意时刻有效的选择性风险控制,从而在不进行池化或长期平均的情况下,能够在受监管环境中安全部署。
压力下的风险:语言模型对抗鲁棒性的计算感知评估
本文提出了一种针对LLM对抗鲁棒性的计算感知评估框架,提出了基于FLOPs的风险-计算曲线和度量指标,以更好地评估攻击成本,发现对齐训练具有非单调效应,且计算成本因模型和危害类别而异。
部分可观测下安全关键控制的动作条件风险门控
本文提出了动作条件风险门控(Action-Conditioned Risk Gating),一种用于部分可观测下风险敏感控制的轻量级强化学习方法,该方法利用紧凑的有限历史代理状态和基于动作条件的近期风险预测器来平衡安全性和性能。
关于折扣强化学习中优化确定性等价的样本复杂度
本文研究了在生成模型下有限折扣MDP中的风险敏感强化学习,重点是在优化确定性等价(OCE)风险度量下学习最优值函数和策略的样本复杂度。文章给出了PAC可学习性的精确条件,分析了一种基于模型的方法,并建立了紧的下界,包括对CVaR风险参数的改进依赖关系。
通过分位数贝叶斯风险MDP实现在线强化学习中鲁棒性与探索的动态权衡
本文提出了一种用于在线强化学习的分位数贝叶斯风险感知MDP框架,该框架能够随时间自适应地平衡鲁棒性与探索,提供了理论遗憾界并展示了强大的实证性能。