RRISE:通过代理估计器进行鲁棒半径推断

arXiv cs.LG 论文

摘要

RRISE引入了一种学习的代理估计器,将随机平滑认证鲁棒性的蒙特卡洛采样成本降低到单次前向传播,在将每次查询多达10^4次评估替换为一次前向传播的同时,精度保持在0.84个百分点以内。

arXiv:2606.02876v1 公告类型:新 摘要:随机平滑(RS)使用平滑分类器提供与架构无关的ℓ2分类鲁棒性认证,但其对每个输入进行蒙特卡洛(MC)采样的依赖限制了其在实时系统中的应用。我们认为这种成本是结构性的而非根本性的,因此可以通过在部署数据流中共享信息来显著降低。我们提出RRISE,一种将认证压缩为通过学习的代理进行单次前向传播的RS框架。RRISE通过软标签交叉熵损失函数对预先计算的MC类别计数目标进行代理训练,并通过一次性共形校准步骤将代理预测转换为可证明保守的认证半径。得到的证书是可部署验证的:每当校准后的半径为正值时,代理的预测可证明与平滑分类器一致,且平滑分类器在该半径的球内关于输入保持不变。在图像分类基准测试中,RRISE在将每次查询中多达10^4次有噪声的基础模型评估替换为单次代理前向传播的同时,与固定预算MC认证精度相差在0.84个百分点以内,并在约10^5次部署查询后回收MC训练成本。在CIFAR-100和Tiny ImageNet上(唯一的先前离线代理方法在此失效),RRISE实现了1.23至1.91倍的认证精度提升,确立了高效随机平滑作为重复部署场景中认证鲁棒性的实用路径。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:40

# 通过替代估计器实现稳健半径推断  
来源:https://arxiv.org/html/2606.02876  

Jong-Ik Park  
卡内基梅隆大学  
[email protected]  

&  
Shreyas Chaudhari¹  
卡内基梅隆大学  
[email protected]  

Carlee Joe-Wong  
卡内基梅隆大学  
[email protected]  

&  
José M. F. Moura  
卡内基梅隆大学  
[email protected]  

###### 摘要  

随机平滑(RS)利用平滑分类器提供与架构无关的ℓ₂分类鲁棒性认证,但其对每个输入进行蒙特卡洛(MC)采样的依赖性阻碍了其在实时系统中的应用。我们认为这种成本是结构性的而非本质性的,通过跨部署流共享信息可以显著降低。我们提出 **RRISE**,一种将认证压缩为通过学习的替代模型进行单次前向传播的 RS 框架。**RRISE** 通过软标签交叉熵损失针对预计算的 MC 类别计数目标训练替代模型,并通过一次性保形校准步骤将替代模型预测转换为可证明保守的认证半径。得到的证书可部署验证:每当校准半径为正时,替代模型的预测可证明匹配平滑分类器的预测,且平滑分类器在输入周围该半径的球内是恒定的。在图像分类基准测试中,**RRISE** 在固定预算 MC 认证准确率上相差 0.84 个百分点以内,同时将每次查询所需的 10⁴ 次噪声基础模型评估替换为单次替代模型前向传播,在约 10⁵ 次部署查询后即可收回 MC 训练成本。在 CIFAR-100 和 Tiny ImageNet 上(先前唯一的离线替代方法在此失效),**RRISE** 实现了 1.23 到 1.91 倍更高的认证准确率,确立了高效随机平滑作为重复部署场景下认证鲁棒性的实用路径。  

## 1 引言  

现代 AI 分类系统越来越多地运行在高风险、实时环境中,其性能不仅取决于逐点准确率,还取决于输入扰动下的稳定性(Fawzi 等人,2018;Liu 等人,2025)。物理可实现扰动——如视角、光照变化或传感器噪声——可能触发自动驾驶中的安全关键故障(Eykholt 等人,2018;Chi 等人,2024),而医学图像中的细微变化可能危及临床决策(Finlayson 等人,2019;Ma 等人,2021)。类似问题出现在实时机器人(Cao 等人,2023)和语音识别(Xie 等人,2020)中,在这些场景中,尽管存在自然发生或对抗性输入扰动,仍需在严格的延迟约束下产生可靠决策。这些场景激发了鲁棒性的**几何**视角,即预测应在输入的邻域内保持不变,该邻域的大小定义了操作安全裕度(Hein and Andriushchenko,2017;Wang 等人,2018)。相比之下,广泛使用的逐点可靠性指标——如置信度分数、预测不确定性和校准指标(Guo 等人,2017;Lakshminarayanan 等人,2017;Gal and Ghahramani,2016;Geifman and El-Yaniv,2017)——并不直接认证邻域不变性。  

随机平滑(RS)(Lecuyer 等人,2019;Cohen 等人,2019;Li 等人,2019)已成为认证分类器鲁棒性的领先方法。RS 提供实例特定的有界扰动下预测不变性保证。与依赖于架构假设且难以扩展到大型网络的边界传播和凸松弛方法(Weng 等人,2018;Singh 等人,2019)不同,RS 与架构无关,仅需对分类器的黑盒查询访问,并通过蒙特卡洛(MC)采样广泛应用。  

尽管具有这些优势,标准 RS 涉及大量计算成本,阻碍了其在实时、安全关键、风险感知决策系统中的应用(Kumari 等人,2023)。认证需要对每个输入通过 MC 采样估计“平滑”类概率(Cohen 等人,2019),而实现高置信度保证可能需要每个输入样本进行大约 10⁵ 次前向传播(Salman 等人,2019)。在延迟敏感场景中,这种开销是不可接受的。在现代 GPU 硬件上,大型 RGB 彩色图像的单次前向传播可能需要几毫秒(Xu 等人,2024),导致每个输入的认证时间在数百秒量级(Cohen 等人,2019;Bhardwaj 等人,2024),远远超出自动驾驶或语音识别等典型延迟敏感应用的要求。因此,认证鲁棒性保证与实际部署之间的差距推动了对更高效随机平滑认证方法的需求。  

##### 贡献。  
我们提出 **RRISE**(鲁棒半径推断 via 替代估计器),一种计算高效的随机平滑认证框架,将每个输入的 MC 采样替换为单次替代模型前向传播。我们的贡献有两方面。  

(i) 一种用于计算高效平滑的原理性替代模型训练方法。  
我们微调基础分类器以预测高斯噪声下的平滑类分布,通过软标签交叉熵指导有限预算 MC 类别计数目标。由于交叉熵关于其目标是线性的,其梯度是目标处 MC 梯度的无偏估计。先前离线替代工作(Bhardwaj 等人,2024)使用的基于散度的替代方法在第一个自变量上非线性,并引入曲率诱导的梯度偏差(附录 D)。微调而非从头训练,使替代模型能够继承基础分类器通过高斯噪声增强已学到的噪声不变表示。  

(ii) 一个产生可部署验证证书的保形校准层。  
在保留的校准集上,我们计算一个标量偏移 δ,在推理时,该偏移将替代模型的最高类概率转换为平滑最高类概率的高概率下界——从而转换为完全由单次替代模型前向传播计算出的认证半径。当该半径为正时,替代模型的预测可证明匹配平滑分类器的预测。摊销认证的标准假设——替代模型的 argmax 与平滑分类器的 argmax 一致——成为从业者可在推理时检查的条件,一次校准覆盖整个部署场景。  

本文其余部分组织如下。在概述问题背景和相关工作后(第 2 节),我们在第 3 节介绍 RRISE 方法,并在第 4 节进行评估。在第 5 节讨论 RRISE 的潜在局限性,然后在第 6 节总结。  

## 2 背景与相关工作  

### 2.1 预备知识  

随机平滑(RS)(Cohen 等人,2019)构建了具有可证明鲁棒性的分类器,抵抗 ℓ₂ 有界对抗性扰动。与对抗经验防御不同——后者仍易受自适应攻击(Carlini and Wagner,2017;Akhtar and Mian,2018;Tramer 等人,2020)——RS 提供针对指定半径内**任何**扰动的认证保证,无论其来源如何。核心思想是将基础分类器与各向同性高斯噪声卷积,产生一个平滑分类器,其决策在每个输入的邻域内可证明稳定。  

设 \(f: \mathbb{R}^d \to \{1,\dots,K\}\) 为一个用标准监督目标训练的基础分类器。对于平滑参数 \(\sigma > 0\) 和输入 \(\mathbf{x}\),RS 定义每个类别 \(k\) 的平滑类概率:

\[
p(k \mid \mathbf{x}, \sigma) \triangleq \mathbb{P}_{\boldsymbol{\varepsilon}\sim\mathcal{N}(\mathbf{0},\sigma^2\mathbf{I})}\big(f(\mathbf{x}+\boldsymbol{\varepsilon})=k\big),
\qquad (1)
\]

并得到诱导的**平滑分类器** \(g(\mathbf{x};\sigma) \triangleq \arg\max_k p(k \mid \mathbf{x},\sigma)\),返回噪声下最可能的类别。令 \(p_A = \max_k p(k \mid \mathbf{x},\sigma)\) 表示平滑最高类概率,Cohen 等人(2019)证明,只要 \(p_A > 1/2\),平滑分类器 \(g\) 在以下 ℓ₂ 半径内鲁棒:

\[
R(\mathbf{x};\sigma) \triangleq \sigma\,\Phi^{-1}(p_A),
\qquad (2)
\]

即对于所有 \(\|\boldsymbol{\delta}\|_2 \leq R(\mathbf{x};\sigma)\),有 \(g(\mathbf{x}+\boldsymbol{\delta};\sigma) = g(\mathbf{x};\sigma)\),其中 \(\Phi^{-1}\) 是标准高斯分布的逆累积分布函数。  

由于 \(p_A\) 无法闭式求解,标准方法是通过蒙特卡洛(MC)采样估计。抽取 \(n\) 个噪声向量 \(\boldsymbol{\varepsilon}_j \sim \mathcal{N}(\mathbf{0},\sigma^2\mathbf{I})\),每个扰动输入 \(\mathbf{x}+\boldsymbol{\varepsilon}_j\) 由 \(f\) 分类,将最频繁预测的类别 \(\widehat{c}_A\) 作为平滑分类器 \(g(\mathbf{x};\sigma)\) 的预测。投票给该类的样本比例 \(\widehat{p}_A = \frac{1}{n}\sum_{j=1}^n \mathbf{1}\{f(\mathbf{x}+\boldsymbol{\varepsilon}_j)=\widehat{c}_A\}\) 是 \(p_A\) 的经验估计。由于 \(\widehat{p}_A\) 本身有噪声,使用单边 Clopper-Pearson 置信下界 \(\underline{p}_A \leq \widehat{p}_A\) 替代 \(p_A\),得到高概率半径 \(\widehat{R}(\mathbf{x};\sigma) \triangleq \sigma\,\Phi^{-1}(\underline{p}_A)\)。  

该过程在统计上是合理的且广泛适用,但其成本随每个输入的 MC 预算增加。Cohen 等人(2019)为每个经过认证的 ImageNet 图像使用多达 \(n=10^5\) 个 MC 样本,总计超过 1,500 GPU 小时¹ 来认证 50K 个图像。该成本是结构性的,因为 \(p_A\) 在每个输入处从头估计,没有跨输入共享信息。  

本文围绕由此产生的问题展开:*证书对 \(p_A\) 的依赖性能否跨输入摊销,使得认证新输入 \(\mathbf{x}\) 不再需要多次前向传播 \(f\)?* 第 3 节通过训练一个直接预测平滑类分布的神经替代模型给出肯定答案,特别地,第 3.2 节显示,一次性保形校准可将替代模型预测转换为具有高概率覆盖保证的认证半径。  

### 2.2 可靠性、平滑与加速  

##### 逐点可靠性信号。  
校准、预测熵、贝叶斯近似、集成、距离感知模型、选择性预测和分布外检测为给定分类模型提供有用的逐点可靠性信息(Gal and Ghahramani, 2016; Guo 等人, 2017; Lakshminarayanan 等人, 2017; Geifman and El-Yaniv, 2017; Maddox 等人, 2019; Liang 等人, 2018; Liu 等人, 2020, 2023)。这些信号通常可以以每个输入很小的额外成本计算,但它们并不认证邻域不变性,因此不提供实例特定的鲁棒性半径。  

##### 认证随机平滑。  
随机平滑已从原始的 ℓ₂ 高斯设置扩展到其他范数、变换、架构和平滑分布(Lecuyer 等人, 2019; Cohen 等人, 2019; Li 等人, 2019; Yang 等人, 2020; Fischer 等人, 2020; Pfrommer 等人, 2023)。另一条研究路线研究数据相关或输入自适应的平滑水平(Alfarra 等人, 2022)。这些方法提高了平滑证书的灵活性或质量,但认证步骤仍然依赖于每个输入昂贵的 MC 估计平滑类概率,使其难以部署在延迟敏感应用中。  

##### 降低蒙特卡洛成本。  
一些方法在不完全替换 MC 认证的情况下减少在线采样负担。置信序列和早停方法在半径估计足够稳定时自适应地停止采样(Voracek, 2024)。输入特定预算方法为简单输入分配较少样本,为模糊输入分配更多样本(Seferis 等人, 2024)。增量式认证方法在相关分类器之间重用信息(Ugare 等人, 2024)。这些方法降低了平均采样成本,但测试时仍需噪声基础模型评估。Bhardwaj 等人提出的离线替代方法

相似文章

StableRCA: 稳健的图无关机制级根因分析

arXiv cs.LG

StableRCA是一种新颖的根因分析框架,通过估计局部马尔可夫边界并检测条件分布偏移来识别干预目标,避免了全局因果图的发现,在合成和真实数据集上展示了鲁棒性。

ROSE: 一个面向意图的NL2SQL评估指标

Hugging Face Daily Papers

ROSE是一个新颖的面向意图的NL2SQL评估指标,采用Prover-Refuter级联框架来评估语义正确性,无需依赖真实SQL,与人类专家的一致性比现有指标高24%。该论文解决了执行准确度的局限性,并对19个NL2SQL方法进行了重新评估,并公开发布了相关资源。