压力下的风险：语言模型对抗鲁棒性的计算感知评估

arXiv cs.LG 2026/06/11 04:00 论文

adversarial-robustness language-models jailbreak-evaluation compute-aware safety llm-security

摘要

本文提出了一种针对LLM对抗鲁棒性的计算感知评估框架，提出了基于FLOPs的风险-计算曲线和度量指标，以更好地评估攻击成本，发现对齐训练具有非单调效应，且计算成本因模型和危害类别而异。

arXiv:2606.11409v1 Announce Type: new 摘要：大型语言模型（LLM）的对抗鲁棒性评估通常报告固定查询预算下的攻击成功率（ASR），隐含地认为所有攻击具有相同成本。实际上，不同攻击策略的计算开销可能相差数个数量级。因此，固定预算下的ASR会掩盖越狱模型所需的真实努力，从而难以判断攻击成本与其对攻击者收益的合理性。我们提出了一种基于计算压力的计算感知评估框架，以累积浮点运算（FLOPs）为度量，作为对抗性努力的代表。我们引入了风险-计算曲线，将计算预算映射到攻击风险，并推导出两个指标来总结给定攻击成功所需的平均压力。在跨越三个模型家族和四个不同语言模型训练与对齐阶段的十个模型上，使用三种攻击策略（基于梯度、迭代优化和基于模板）在两个越狱鲁棒性基准测试中进行评估，我们发现：（1）对齐训练对计算空间鲁棒性具有非单调效应；（2）增加模型规模会降低基于梯度的攻击有效性，但对成本更低的基于模板的攻击影响有限；（3）在代理模型上优化的基于梯度的攻击可以迁移到单独的目标模型，从而降低攻击者成本；（4）在单一模型内，不同危害类别之间的计算成本差异可达约5倍；（5）安全对齐的强化学习增加了总体成本，但使某些类别变得不成比例地易受攻击。我们发布我们的框架以实现计算感知的风险评估与评价。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:47

# 语言模型中对抗鲁棒性的计算感知评估  
来源：https://arxiv.org/html/2606.11409  
Malikeh Ehghaghi¹²，Boglárka Ecsedi¹²∗，Marsha Chechik¹，Colin Raffel¹²³  
¹多伦多大学  
²向量研究所  
³Hugging Face  
加拿大多伦多，安大略省  
∗同等贡献。通信作者：Malikeh Ehghaghi <[email protected]>，Boglárka Ecsedi <[email protected]>。  

###### 摘要  
大型语言模型（LLM）的对抗鲁棒性评估通常报告固定查询预算下的攻击成功率（ASR），隐含地认为所有攻击成本相同。然而在实践中，不同攻击策略的计算开销可能相差数个数量级。因此，固定预算下的 ASR 会掩盖“越狱”一个模型所需的真实努力，从而难以判断攻击成本与其对攻击者带来的收益是否匹配。我们提出了一个基于计算压力的计算感知评估框架，以累积浮点运算数（FLOPs）作为对抗努力的代理量。我们引入了风险-计算曲线，将计算预算映射到攻击风险，并推导出两个指标，汇总给定攻击成功所需的平均压力。在跨越三个模型家族、四个不同语言模型训练和对齐阶段、十种模型上，使用三种攻击策略（基于梯度的、迭代精炼的和基于模板的）在两种越狱鲁棒性基准上进行评估，我们发现：(1) 对齐训练对计算空间鲁棒性具有非单调影响；(2) 模型规模扩大降低了基于梯度的攻击有效性，但对成本更低的基于模板的攻击影响有限；(3) 在替代模型上优化的基于梯度的攻击可以迁移到独立的目标模型，从而为攻击者提供降低成本的方式；(4) 在同一模型内，不同危害类别的计算成本差异高达约 5 倍；(5) 经过安全对齐的强化学习增加了总体成本，但使某些类别不成比例地易于访问。我们发布我们的框架，以实现计算感知的风险评估和评估。  

![[未加标题的图像]](https://arxiv.org/html/2606.11409v1/images/warning_sign.png)  
内容警告：本文包含有害语言的示例。  

## 1 引言  
LLM 的滥用可能助长欺诈（Willison, 2023 (https://arxiv.org/html/2606.11409#bib.bib20)）、传播虚假信息（Greshake et al., 2023 (https://arxiv.org/html/2606.11409#bib.bib21)）或实现网络攻击（Carlini et al., 2021 (https://arxiv.org/html/2606.11409#bib.bib22)），导致提供商大力投资安全调优（Christiano et al., 2017 (https://arxiv.org/html/2606.11409#bib.bib23)；Ouyang et al., 2022 (https://arxiv.org/html/2606.11409#bib.bib24)；Bai et al., 2022 (https://arxiv.org/html/2606.11409#bib.bib25)）。然而，对抗性越狱——旨在规避安全护栏的提示——仍然是一个持续的威胁（Zou et al., 2023 (https://arxiv.org/html/2606.11409#bib.bib27)；Wei et al., 2023 (https://arxiv.org/html/2606.11409#bib.bib26)；Carlini et al., 2023 (https://arxiv.org/html/2606.11409#bib.bib28)；Qi et al., 2024 (https://arxiv.org/html/2606.11409#bib.bib29)）。这引出了一个重要的安全问题：越狱一个语言模型有多难？社区的典型答案是“攻击 XX 在 ZZ 次查询后达到 YY% 的成功率”，回答了*多频繁*，但是没有回答*以什么成本*。想象两个模型被要求写一篇关于公众人物的诽谤文章：一个立即照做，而另一个抵抗了九次尝试后才在第十次照做。单预算攻击成功率（ASR）将两者都评为同样不安全（100% ASR），将 10 倍的对抗努力差异压缩为二元结果，掩盖了一个模型在实践中可能更加昂贵的事实。这一限制反映了 LLM 安全评估与经典安全之间的更广泛差距，经典安全中系统的鲁棒性通过其*工作因子*量化：对手必须付出的计算努力才能攻破它（Menezes et al., 1996 (https://arxiv.org/html/2606.11409#bib.bib18)；Schneier, 1995 (https://arxiv.org/html/2606.11409#bib.bib19)）。计算机系统的评估不仅在于攻破它是否*可能*，更在于在现实对手预算下是否*可行*。然而，LLM 安全基准通常报告固定查询预算下的结果，而没有相应的对抗努力度量，这使得难以将 ASR 转化为运营风险，也难以在同等攻击者花费下比较模型。最近的防御报告称，针对静态攻击数据集（Jain et al., 2023 (https://arxiv.org/html/2606.11409#bib.bib32)；Robey et al., 2024 (https://arxiv.org/html/2606.11409#bib.bib33)）或未针对防御进行适配的弱计算方法（Kumar et al., 2024 (https://arxiv.org/html/2606.11409#bib.bib34)）时，ASR 接近零。正如 Nasr 等人（2025 (https://arxiv.org/html/2606.11409#bib.bib35)）所证明的，这些评估可能系统性地高估鲁棒性：明确对抗防御设计的自适应攻击绕过了 12 种近期防御，ASR 超过 90%，尽管原始报告称失败率接近零。我们认为核心问题是*成本核算不完整*，将所有查询视为成本相同，从而掩盖了所需的真实对抗投资。  

请参见图注  
图 1：压力下的风险评估框架。攻击试验以基准行为、攻击策略 π、目标模型 M 和查询预算 λ 初始化。对于每个提示，预算内的迭代精炼循环生成响应，用安全评判器评估，并在成功时终止或为下一步精炼提示。然后将试验痕迹按累积 FLOP 重新参数化，生成风险-计算曲线，从中导出两个标量汇总指标：C@τ（达到 τ% 风险所需的计算）和平均效率（ae），即每 FLOP 的归一化期望风险。现实中的对手会在有限计算预算下操作，并根据投资回报选择攻击。只有当漏洞能够以与被利用价值相匹配的成本被利用时，它才具有运营相关性。因此，从防御者角度看，迫使攻击变得计算昂贵可能与降低其成功率同样有效。换句话说，防御者的目标不应是完美的鲁棒性，而是将对抗成本底线提高到足以威慑现实威胁行为者的水平。为了解决现有评估实践的不足，我们引入了一个基于*计算压力*的计算感知评估框架，作为对抗努力的代理量，以固定查询预算内的累积浮点运算数（FLOPs）衡量压力。我们定义了*风险-压力曲线*来描述攻击风险如何随计算增加而变化，并导出两个汇总指标：C@τ，即攻击在 τ% 的时间成功所需的计算量；以及 AE，即每单位 FLOP 获得的风险。通过将不同的攻击策略（包括基于梯度的优化、模型引导的精炼和基于模板的提示）放在共享的计算轴上，我们能够在模型和攻击之间进行更统一、预算感知的比较。我们在跨不同模型家族、训练阶段、模型规模、攻击策略和越狱鲁棒性基准的系统研究中实例化该框架。计算感知分析揭示了仅用步数 ASR 所隐藏的模式：对齐训练对计算空间鲁棒性产生非单调影响，中间阶段（SFT）有时优于后期阶段（DPO, RLVR）；模型规模对基于梯度的攻击的好处远大于对廉价模板攻击的好处；在替代模型上优化的基于梯度的攻击可以以一小部分成本迁移到目标模型；攻破一个模型的计算成本在不同危害类别之间差异高达约 5 倍；专用的安全强化学习提高了总体对抗成本，同时使某些危害类别不成比例地易于访问。我们以开源框架的形式发布我们的管道，用于可重复、计算感知的 LM 安全评估。  

## 2 框架  
### 2.1 预算内的迭代精炼与计算压力  
我们将对抗攻击建模为在固定查询预算 λ 下的*迭代精炼*：在每个步骤 t，攻击策略 π 提出候选提示 p^(t)，目标模型 M 生成响应 y^(t)，并且出于评估目的，安全评判器 E 记录二元结果 z^(t)。图 1 (https://arxiv.org/html/2606.11409#S1.F1) 说明了该管道；附录 A (https://arxiv.org/html/2606.11409#A1) 中的算法 1 (https://arxiv.org/html/2606.11409#alg1) 将其形式化。我们统一将其应用于攻击家族，其中 p^(1) 使用从安全基准中获取的提示进行初始化（见第 3.3 节 (https://arxiv.org/html/2606.11409#S3.SS3)）。攻击策略的每一步都可能产生来自多种来源的计算： (i) 通过目标模型 M 的前向传递，用于响应生成、候选评估或损失计算；(ii) 当攻击需要梯度时的 M 反向传递（例如，用于白盒优化）；(iii) 通过可选的辅助攻击者模型 M_A 的前向传递，该模型提出下一个提示（例如，黑盒攻击者 LLM）；以及 (iv) 通过安全评判器 E 的前向传递，该评判器评估每个响应，通常在如算法 1 (https://arxiv.org/html/2606.11409#alg1) 那样采用早停准则的情况下。以上所有都可以归结为 FLOP 成本（标准 transformer FLOP 近似，如 (Vaswani et al., 2017 (https://arxiv.org/html/2606.11409#bib.bib1)；Kaplan et al., 2020 (https://arxiv.org/html/2606.11409#bib.bib36)；Hoffmann et al., 2022a (https://arxiv.org/html/2606.11409#bib.bib12)) 中定义）：  
C_fwd ≈ 2NL, (1)  
其中 N 是参数数量，L 是 token 的序列长度；反向传递的成本约为 2 C_fwd (Hobbhahn and Sevilla, 2021 (https://arxiv.org/html/2606.11409#bib.bib41))，攻击特定的开销在第 3.1 节 (https://arxiv.org/html/2606.11409#S3.SS1) 中说明。我们将*计算压力*定义为在 λ 次精炼步骤中累积的 FLOP，并在提示间取平均。第 3.1 节 (https://arxiv.org/html/2606.11409#S3.SS1) 为我们研究中的每次攻击实例化了该核算。我们以 FLOP 定义量，并在图表和表格中以 TFLOP（1 TFLOP = 10^12 FLOP）报告数值结果，以便阅读。  

#### 为什么选择 FLOP？  
FLOP 是攻击成本的基本属性，不受 GPU、内核和批处理选择的影响，这些选择会使挂钟时间变化几个数量级，但不改变攻击的内在难度，这与 FLOP 是 transformer 缩放律分析中规范比较轴的原因相同 (Kaplan et al., 2020 (https://arxiv.org/html/2606.11409#bib.bib36)；Hoffmann et al., 2022a (https://arxiv.org/html/2606.11409#bib.bib12))。FLOP 在不同攻击组件（梯度步、辅助攻击者调用、目标/评判器查询）之间具有可比性，使得原本不可比较的攻击可以共享一个公共轴（第 3.1 节 (https://arxiv.org/html/2606.11409#S3.SS1)）。FLOP 也是防御者最终跟踪的操作量（例如，能量、挂钟时间、GPU 小时、每次突破的美元成本）的不变前驱，每个都可以通过硬件或合同特定的因子从 FLOP 获得，因此基于 FLOP 的排名可以按该因子转化为这些代理量的排名。  

### 2.2 风险-计算曲线  
给定模型 M 在攻击 π 下的 N 次试验记录，我们定义查询预算 λ 下的经验风险：  
R̂(M, π, λ) = (1/N) Σ_{i=1}^N 1[试验 i 在 λ 步内成功]. (2)  

#### 计算参数化  
对于每个查询预算 λ，我们测量消耗到该预算为止的*每个提示的平均累积 FLOP*：  
C̄(M, π, λ) = (1/N) Σ_{i=1}^N Σ_{t=1}^{min(λ, t_i^*)} c_π(M, t), (3)  
其中 t_i^* 是试验 i 的首次成功步骤（如果未成功则为 λ），c_π(M, t) 是步骤 t 在攻击 π 下对模型 M 的 FLOP 成本（在第 3.1 节 (https://arxiv.org/html/2606.11409#S3.SS1) 中定义）。风险-计算曲线绘制 (x, y) = (C̄(M, π, λ), R(M, π, λ))，随着 λ 从 1 变化到 λ_max。  

### 2.3 汇总指标  
风险-计算曲线提供了攻击缩放行为的丰富视觉细节，但难以系统地比较。我们提取两个标量摘要，包括达到一定风险阈值所需的计算和每单位计算获得的风险，从而支持一致的跨模型和跨攻击比较。  

**达到 τ% 风险所需的计算 (C@τ)** 衡量攻击首次达到 τ% 风险所需的平均累积 FLOP，我们选择 τ=0.5 来显示超过一半的情况，但该阈值可以根据用例或部署约束更改：  
C@τ(M, π) = min_λ { C̄(M, π, λ) : R̂(M, π, λ) ≥ τ }. (4)  
更高的 C@τ 表示模型需要更多的对抗计算才能被攻破。当 R̂ 在预算内从未达到 τ 时，我们设 C@τ = ∞。  

**风险-计算曲线下面积 (CAURC)** 通过梯形近似计算  
CAURC(M, π, λ_max) = ∫_{λ=1}^{λ_max} R(M, π, λ) dC̄(M, π, λ) (5)  
**平均效率 (AE)**，AE = CAURC / C̄_max，是每 FLOP 的归一化期望风险，衡量攻击者每花费一单位计算平均获得多少风险。高 AE 意味着即使在紧张的计算约束下，攻击也能提取大量风险。所有指标在 10 个不同种子上聚合，使用 t 分布 95% 置信区间（df = n_seeds - 1，其中 n_seeds 是随机种子的数量）。  

## 3 实验设置  
### 3.1 攻击与每步成本  
我们的实证研究涵盖了三种不同的广泛使用的攻击策略。对于每种策略，我们描述策略并实例化来自公式 (1 (https://arxiv.org/html/2606.11409#S2.E1)) 的每步成本 c_π(M, t)。  

**JailBroken** (Wei et al., 2023 (https://arxiv.org/html/2606.11409#bib.bib26))，一种基于模板的攻击，从八种混淆策略中随机选择应用于基础对抗提示 p：前缀注入、拒绝抑制、风格注入、角色扮演框架、AIM 角色采用（“Always Intelligent and Machiavellian”，一种重新分配助手身份并抑制拒绝的角色扮演越狱）、开发者模式框架、Base64 编码和 AIM+Base64。在每一步 t，一个新的模板独立应用于 p，导致每步成本为：  
c_JB(M) = 2 N_M L_gen（目标前向）+ 2 N_J L_J（评判器前向），(6)  
其中 N_M 和 N_J 是目标和安全评判器的参数数量，L_gen 是目标的响应长度，L_J 是评判器的...（原文在此中断，根据上下文推测是评判器的输入长度等）

压力下的风险：语言模型对抗鲁棒性的计算感知评估

相似文章

模糊 ARTMAP 中的流式对抗鲁棒性：机制对齐评估、渐进式训练及可解释诊断

当正确信念崩溃时：临床压力下LLMs的认知韧性

一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

压力测试医学大语言模型揭示基准准确率之外的潜在安全病理

测试对未知对手的鲁棒性

提交意见反馈