CHASE:基于强化学习的对抗性红蓝对抗提升大语言模型安全性

arXiv cs.CL 论文

摘要

CHASE 提出了一种共同进化的红蓝对抗框架,利用强化学习增强大语言模型对自适应黑盒对抗攻击的防御能力,在基准测试中将越狱成功率降低43.2%,同时在对良性提示的误拒率保持为零。

arXiv:2606.05523v1 公告类型: 新 摘要: 尽管在安全对齐方面取得了进展,但诸如角色调制、虚构框架和基于说服的重写等提示重写攻击,仍能绕过前沿模型的安全过滤器。现有防御要么依赖不可扩展的人工筛选,要么依赖过度适应特定模型内部结构的白盒优化,使得对齐模型在面对部署中必然会遇到的自适应黑盒对抗攻击时显得脆弱。为解决这一差距,我们引入了 CHASE(通过对抗性安全升级实现共同进化硬化),这是一个闭环的红蓝对抗框架,其中黑盒攻击者和安全对齐的防御者共同进化。攻击者通过基于乘法奖励的群组相对策略优化(GRPO)进行训练,该奖励同时强制绕过有效性和意图保真度,而防御者则通过两阶段 GRPO + 拒绝采样 SFT 流程在收获的对抗性重写上硬化,并与良性数据平衡。在 BeaverTails 和 JailbreakBench 上针对五个保留攻击家族(PAIR、TAP、AutoDAN、PAP、Translation)进行评估,CHASE 将平均 StrongREJECT 得分降低了 43.2%,且对良性提示的误拒率为 0%。除了这一显著结果外,CHASE 表明无模板的 RL 探索能够恢复跨机制上不同攻击家族传递的潜在攻击基元,这表明了一条通往大语言模型安全硬化的路径,其泛化能力超越了当前对抗训练所达到的狭窄分布。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:06

# CHASE: 通过强化学习进行对抗红蓝测试以提升大语言模型安全性
来源: https://arxiv.org/html/2606.05523
Rahul Markasserithodi, Aditya Joshi, Yuekang Li, Ishmanbir Singh, Chris Yoo, Alan Niu 新南威尔士大学,澳大利亚 r\.markasserithodi@student\.unsw\.edu\.au, aditya\.joshi@unsw\.edu\.au, yuekang\.li@unsw\.edu\.au \{ishman\.singh, alan\.niu, c\.yoo\}@student\.unsw\.edu\.au

###### 摘要

尽管安全对齐取得了进展,但提示重写攻击(如角色调制、虚构框架和基于说服的改写)仍能绕过即使是最前沿模型的安全过滤器。现有防御要么依赖不可扩展的人工策划,要么依赖过度拟合特定模型内部结构的白盒优化,这使得对齐后的模型在面对部署时必然会遇到的动态黑盒对手时变得脆弱。为弥补这一差距,我们提出了CHASE(通过对抗安全升级实现协同进化强化),这是一个闭环的红蓝测试框架,其中黑盒攻击者与安全对齐的防御者协同进化。攻击者通过群体相对策略优化(GRPO)进行训练,其奖励函数为乘法形式,同时强制执行绕过有效性和意图保真度;而防御者则通过对所收获的对抗性重写进行两阶段GRPO + 拒绝采样SFT流程来强化,并与良性数据保持平衡。在BeaverTails和JailbreakBench上针对五个保留攻击家族(PAIR, TAP, AutoDAN, PAP, Translation)进行评估,CHASE将平均StrongREJECT分数降低了43.2%,并且在良性提示上实现了0%的虚假拒绝。除了这一主要结果外,CHASE还表明,无模板的强化学习探索恢复了潜在于机制上不同的攻击家族之间的潜在攻击原语,这为LLM安全强化提供了一条路径,使其能够超越现有对抗训练所达到的狭窄分布,实现更广泛的泛化。

CHASE: 通过强化学习进行对抗红蓝测试以提升大语言模型安全性

Rahul Markasserithodi, Aditya Joshi, Yuekang Li, Ishmanbir Singh, Chris Yoo, Alan Niu新南威尔士大学,澳大利亚r\.markasserithodi@student\.unsw\.edu\.au, aditya\.joshi@unsw\.edu\.au, yuekang\.li@unsw\.edu\.au\{ishman\.singh, alan\.niu, c\.yoo\}@student\.unsw\.edu\.au

## 1 引言

参见图注图1:一个CHASE周期作为*奖励轨迹*。大型语言模型(LLM)在各种任务中展现出卓越能力,但它们的部署也引入了关键的风险,即被滥用的风险(Ganguli等人\(2022 (https://arxiv.org/html/2606.05523#bib.bib14)\))。尽管像从人类反馈中强化学习(RLHF)(Ouyang等人\(2022 (https://arxiv.org/html/2606.05523#bib.bib10)\))和监督微调(SFT)这样的对齐技术建立了基线安全性,但它们主要在模型的潜在空间中产生静态的决策边界。这些静态防御对在黑盒环境中进行自适应攻击的对手本质上是脆弱的(Andriushchenko等人\(2025 (https://arxiv.org/html/2606.05523#bib.bib52)\)),暴露了一个“自适应差距”,即在时间\(t-1\)优化的防御策略在时间\(t\)面对新的攻击分布时仍然高度脆弱。自动越狱方法的出现,如贪心坐标梯度(GCG)(Zou等人\(2023 (https://arxiv.org/html/2606.05523#bib.bib9)\))、AutoDAN(Zhu等人\(2023 (https://arxiv.org/html/2606.05523#bib.bib13)\);Liu等人\(2023a (https://arxiv.org/html/2606.05523#bib.bib21)\))、提示自动迭代优化(PAIR)(Chao等人\(2023 (https://arxiv.org/html/2606.05523#bib.bib7)\))以及像Crescendo(Russinovich等人\(2025 (https://arxiv.org/html/2606.05523#bib.bib53)\))这样的扩展多轮攻击,突显了在当代威胁景观中一次性对齐的脆弱性。

尽管先前的协同进化和红蓝测试框架(Sorkhpur等人\(2025 (https://arxiv.org/html/2606.05523#bib.bib15)\);Ge等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib31)\))试图弥合进化攻击与静态防御之间的自适应差距,但它们通常依赖固定的攻击模板或模仿学习,限制了所发现攻击策略的多样性以及由此产生的防御的泛化能力。这促使了本工作的核心研究问题:

> 当前LLM安全对齐的脆弱性在多大程度上源于训练期间使用的攻击分布狭窄?通过奖励驱动的对抗性发现来拓宽该分布,能否缩小进化中的越狱攻击与静态LLM之间的自适应差距?

我们通过CHASE来回答这个问题,这是一个协同进化的红蓝测试框架,其核心设计选择是:攻击者在没有任何越狱模板或模仿目标的情况下进行训练。它必须纯粹通过奖励驱动的探索来发现对抗性框架。我们证明这一设计选择至关重要。一个仅在这些强化学习发现的改写上进行过强化训练的防御者,能够泛化到五种机制上不同的未见攻击,而一个在固定攻击家族上训练的、其他设置完全相同的防御者则不能(第5.3节 (https://arxiv.org/html/2606.05523#S5.SS3))。这表明无模板探索恢复了先前工作的狭窄攻击分布所未能捕获的*潜在攻击原语*。实现这一框架需要解决两个会使朴素对抗训练不稳定的失败模式:攻击者的奖励黑客行为,我们通过乘法奖励来解决(第4.1节 (https://arxiv.org/html/2606.05523#S4.SS1));以及防御者的效用崩溃,我们通过两阶段强化流程来解决(第4.2节 (https://arxiv.org/html/2606.05523#S4.SS2))。我们的贡献是:

1.  一个**无模板的协同进化RL框架**,其中攻击者和防御者都通过GRPO进行训练,且未暴露于任何越狱模板,让攻击者纯粹通过奖励驱动的探索来发现对抗性框架。
2.  一个**乘法奖励分解**(\(R = S_{\mathrm{bypass}} \times I_{\mathrm{intent}}\)),消除了单目标对抗训练中的意图漂移和过度净化奖励黑客行为。
3.  强大的**跨攻击泛化能力**:一个仅基于所收获的CHASE攻击者输出进行训练的防御者,在BeaverTails和JailbreakBench上针对五种保留攻击将平均StrongREJECT分数降低了43.2%,并且在标准化的JailbreakBench直接误用和PAIR/GCG迁移上实现了0%的攻击成功率(ASR)。一项消融实验将原因归结为攻击分布(第5.3节 (https://arxiv.org/html/2606.05523#S5.SS3))。
4.  一项**可解释的成本分析**,显示在良性Alpaca提示上完全保留了有用性(0%虚假拒绝),而MT-Bench成本(\(-1.92\))和XSTest上升高的拒绝主要集中于虚构框架和角色扮演框架。

## 2 相关工作

早期的越狱依赖于手工制作的提示(Shen等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib50)\);Liu等人\(2023b (https://arxiv.org/html/2606.05523#bib.bib46)\))。**自动红队测试方法**分为三大类:搜索对抗性后缀的基于优化的攻击(Zou等人\(2023 (https://arxiv.org/html/2606.05523#bib.bib9)\);Liu等人\(2023a (https://arxiv.org/html/2606.05523#bib.bib21)\);Zhu等人\(2023 (https://arxiv.org/html/2606.05523#bib.bib13)\));根据目标反馈优化提示的迭代黑盒攻击,如PAIR(Chao等人\(2023 (https://arxiv.org/html/2606.05523#bib.bib7)\))和TAP(Mehrotra等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib51)\));以及利用虚构和权威框架的基于说服或角色的攻击(Zeng等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib24)\);Shah等人\(2023 (https://arxiv.org/html/2606.05523#bib.bib48)\);Li等人\(2023 (https://arxiv.org/html/2606.05523#bib.bib47)\);Shen等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib50)\))。CHASE的不同之处在于,攻击者在没有任何攻击模板暴露的情况下进行训练。**迭代红蓝测试**已成为一种替代方案。MART(Ge等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib31)\))将自动红队测试与拒绝采样交替进行,而RedHit(Sorkhpur等人\(2025 (https://arxiv.org/html/2606.05523#bib.bib15)\))将搜索与偏好优化相结合;然而,两者都通过模仿或监督学习在固定目标上强化防御者。CHASE则通过GRPO在线训练两个智能体,其乘法奖励明确惩罚意图漂移(Souly等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib5)\))。**对抗训练防御**也被提出。R2D2(Mazeika等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib49)\))针对GCG后缀进行训练,而CAT/CAPO(Xhonneux等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib36)\))和MixAT(Dékány等人\(2025 (https://arxiv.org/html/2606.05523#bib.bib37)\))在连续嵌入空间中操作,或结合连续和离散攻击。一个一致的发现是过度拒绝。这类防御学习了有害性的表面相关性,并在对抗强度上升时在良性提示上退化(Xhonneux等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib36)\);Dékány等人\(2025 (https://arxiv.org/html/2606.05523#bib.bib37)\))。CHASE表现出一种相关但更具可解释性的模式,集中于虚构框架(第6节 (https://arxiv.org/html/2606.05523#S6))。最后,RLHF训练助手中有用性与无害性之间的张力(Bai等人\(2022 (https://arxiv.org/html/2606.05523#bib.bib38)\))已被形式化为帕累托前沿(Lin等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib39)\);Zhong等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib40)\);Dai等人\(2023 (https://arxiv.org/html/2606.05523#bib.bib41)\))。从机制上讲,拒绝由一个单一的线性方向介导(Arditi等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib43)\)),并且安全对齐主要适应于前几个输出标记(Qi等人\(2025 (https://arxiv.org/html/2606.05523#bib.bib44)\))。我们将在CHASE定位为这个前沿上的一个可测量点,而不是一个规避手段。

## 3 形式化

我们将CHASE交互形式化为一个两玩家、黑盒对抗博弈(符号总结见表3 (https://arxiv.org/html/2606.05523#A1.T3))。在标准语言模型交互中,用户提供输入提示\(X\),模型生成响应\(Y\)。在对抗性设置中,我们引入两个不同的智能体。设攻击者\(\mathcal{A}_{\theta}\)由\(\theta\)参数化;其目标是将\(X\)转换为一个对抗性提示\(X_{\mathrm{adv}}\),通过绕过安全过滤器来引发有害响应。设防御者\(\mathcal{D}_{\gamma}\)由\(\gamma\)参数化;它接收\(X_{\mathrm{adv}}\)并输出\(Y_{\mathrm{def}}\):

\[
Y_{\mathrm{def}} = \mathcal{D}_{\gamma}(X_{\mathrm{adv}}).
\tag{1}
\]

交互是**严格的**黑盒方式。攻击者\(\mathcal{A}_{\theta}\)仅观察\(X\)并生成\(X_{\mathrm{adv}}\),无法访问防御者\(\mathcal{D}_{\gamma}\)的参数、梯度或潜在状态。类似地,防御者\(\mathcal{D}_{\gamma}\)仅观察\(X_{\mathrm{adv}}\),并不理解攻击者的内部状态。图2 (https://arxiv.org/html/2606.05523#S3.F2)展示了高层级的CHASE流程。

一个迭代的**协同进化循环**确保防御通过对抗性交互适应新出现的威胁。完整的CHASE框架在\(T\)次迭代中交替更新攻击者和防御者:

\[
\begin{aligned}
\text{(攻击)} \quad \theta^{(t+1)} &\leftarrow \mathrm{GRPO}\!\left(\theta^{(t)}; R, \mathcal{D}_{\gamma^{(t)}}\right) \tag{2} \\
\text{(防御)} \quad \gamma^{(t+1)} &\leftarrow \mathrm{SFT}\!\left(\mathrm{GRPO}\!\left(\gamma^{(t)}; \mathcal{H}_{t}\right); \mathcal{S}_{t}\right) \tag{3}
\end{aligned}
\]

其中\(\mathcal{H}_{t}\)表示在迭代\(t\)收集的成功攻击集合,\(\mathcal{S}_{t}\)表示从GRPO探索的策略(Shao等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib27)\))中通过拒绝采样得到的拒绝数据集。这种双向优化逐步缩小自适应差距,推动两个智能体走向更强的均衡。

参见图注图2:CHASE协同进化流程图。
## 4 方法论

CHASE框架将攻击者(\(\theta\))和防御者(\(\gamma\))耦合在一个对抗循环中(图2 (https://arxiv.org/html/2606.05523#S3.F2)):攻击者的候选改写由一个独立的奖励模型评分,该模型驱动其GRPO更新,同时成功的绕过方法被收集以强化防御者。防御者的响应随后由一个独立的奖励模型评估,为优化攻击者的生成策略提供必要的标量反馈。

### 4.1 攻击者语言模型

CHASE架构中的攻击者语言模型基于NousResearch Hermes 4(Teknium等人\(2025 (https://arxiv.org/html/2606.05523#bib.bib28)\))基础模型构建,选择该模型是因为其高容量参数预算有助于改进细致的释义和风格创造力。所有攻击和防御均在Llama-3.1-8B-Instruct(Grattafiori等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib29)\))上进行评估,该模型既作为攻击者的目标模型,也作为防御者的基础模型。

##### 无模板初始化。

CHASE的一个核心设计选择是攻击者在没有任何越狱模板的情况下初始化。它不接收任何越狱模板、策划的攻击示例或攻击风格的脚手架。系统提示(附录B (https://arxiv.org/html/2606.05523#A2))仅指示模型生成一个保留种子意图的单一改写,而不指定*如何*改写以绕过安全机制。所有对抗性框架策略,如虚构距离化、角色分配、假设场景、学术语境化,都必须通过GRPO在乘法奖励信号(公式(6) (https://arxiv.org/html/2606.05523#S4.E6))上的奖励驱动探索中涌现出来。我们假设这种无模板的发现过程是CHASE下游跨攻击泛化(第5.1节 (https://arxiv.org/html/2606.05523#S5.SS1))的核心机制。GRPO策略不是学习模仿任何特定的攻击家族,而是被迫收敛到*潜在攻击原语*上,这些原语是在绕过有效性和意图保真度上都得分很高的可重用框架策略,而这些原语恰好是在机制上不同的攻击方法(如AutoDAN、PAP和TAP)中重复出现的结构。

##### 奖励驱动优化。

对于每个基础提示\(X\),攻击者采样一组\(K\)个候选改写:

\[
\{X_{\mathrm{adv}}^{(k)}\}_{k=1}^{K} \sim \mathcal{A}_{\theta}(X).
\tag{4}
\]

攻击者被优化以最大化该候选分布上的期望复合奖励\(R\):

\[
\max_{\theta}\; \mathbb{E}_{X_{\mathrm{adv}} \sim \mathcal{A}_{\theta}(X)}\!\bigl[\, R(X_{\mathrm{adv}}, Y_{\mathrm{def}})\, \bigr].
\tag{5}
\]

将绕过有效性和意图保真度合并为一个单一的加性奖励会导致奖励黑客行为:*意图漂移*(改写掉有害内容以获得非拒绝响应)或*过度净化崩溃*(Souly等人\(2024 (https://arxiv.org/html/2606.05523#bib.bib5)\))。

相似文章

改进前沿大语言模型中的指令层级

OpenAI Blog

OpenAI提出了一种利用指令层级任务的训练方法,通过教导模型根据信任级别(系统 > 开发者 > 用户 > 工具)正确优先处理指令,以提高大语言模型的安全性和可靠性。该方法通过强化学习使用名为IH-Challenge的新数据集,应对提示注入攻击并增强安全可控性。

当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化

arXiv cs.LG

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。