我用强化学习训练Qwen3.5自我越狱,然后利用失败案例改进防御
摘要
作者使用强化学习训练Qwen3.5自我越狱,通过多样性奖励暴露多种攻击策略,随后将防御方的鲁棒性从64%提升至92%,同时良性准确率略有下降。
RL攻击者正成为一种常见的自动化红队模式:训练一个模型对抗实时目标,奖励成功的有害顺从,然后利用发现的攻击来强化防御方。这让我很感兴趣,因此我想构建一个完全自动化的红队循环,在攻击者和防御者双方都使用强化学习。难点在于让攻击者暴露多样化的攻击手段。在第一次运行中,GRPO迅速收敛到同一个虚构写作越狱手法,反复使用。虽然有效,但未能暴露多种不同的漏洞。通过按底层攻击策略对rollout进行聚类,并按聚类大小分配奖励后,攻击者暴露了更多样化的越狱集合,因为独特策略比重复策略获得更多奖励。随后,我们在成功攻击和良性边界案例上训练防御方,使其学会拒绝有害请求,同时又不过度拒绝相近的内容。完整博文见评论区,但高级结果如下:
* 防御率:64% → 92%
* 良性准确率:92% → 88%
* 攻击者发现7种策略家族
* 小说/创意框架是最大的聚类,占34%
相似文章
CHASE:基于强化学习的对抗性红蓝对抗提升大语言模型安全性
CHASE 提出了一种共同进化的红蓝对抗框架,利用强化学习增强大语言模型对自适应黑盒对抗攻击的防御能力,在基准测试中将越狱成功率降低43.2%,同时在对良性提示的误拒率保持为零。
我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]
RPS是一种受神经科学启发的两阶段LLM后训练方法,结合了课程学习和学习率衰减。初步结果显示,与等学习率训练相比,在Qwen3-8b上程序合成可靠性得到提升。
面向大推理模型的基于强化学习的越狱攻击中的注意力引导奖励
本文研究了对大型推理模型(LRM)的越狱攻击,揭示了攻击成功率与注意力模式相关。作者提出了一种基于强化学习的越狱方法,将注意力信号纳入奖励函数,并采用多样化的说服策略,在多个基准测试中实现了显著更高的攻击成功率。
Qwen 3.6 27B AR->Diffusion - 在5090上的本地训练
作者详细介绍了尝试在Nvidia 5090 GPU上使用qlora以及来自open-dllm和d3LLM的修改来本地训练Qwen 3.6 27B自回归到扩散模型的过程,在探索单步扩散技术时遇到了显存限制和硬件问题。
LinguIUTics 在 PsyDefDetect 中的方法:面向心理防御机制分类的迭代不平衡感知 Qwen3-8B 微调
本文提出了一种迭代不平衡感知微调方法,使用 Qwen3-8B 和 QLoRA 进行心理防御机制分类,在 PsyDefDetect 2026 共享任务中取得了 0.3917 的宏 F1 分数,在 21 支队伍中排名第 4。