我用强化学习训练Qwen3.5自我越狱，然后利用失败案例改进防御

Reddit r/LocalLLaMA 2026/05/14 23:09 论文

reinforcement-learning red-teaming jailbreak model-safety diversity grpo adversarial-training

摘要

作者使用强化学习训练Qwen3.5自我越狱，通过多样性奖励暴露多种攻击策略，随后将防御方的鲁棒性从64%提升至92%，同时良性准确率略有下降。

RL攻击者正成为一种常见的自动化红队模式：训练一个模型对抗实时目标，奖励成功的有害顺从，然后利用发现的攻击来强化防御方。这让我很感兴趣，因此我想构建一个完全自动化的红队循环，在攻击者和防御者双方都使用强化学习。难点在于让攻击者暴露多样化的攻击手段。在第一次运行中，GRPO迅速收敛到同一个虚构写作越狱手法，反复使用。虽然有效，但未能暴露多种不同的漏洞。通过按底层攻击策略对rollout进行聚类，并按聚类大小分配奖励后，攻击者暴露了更多样化的越狱集合，因为独特策略比重复策略获得更多奖励。随后，我们在成功攻击和良性边界案例上训练防御方，使其学会拒绝有害请求，同时又不过度拒绝相近的内容。完整博文见评论区，但高级结果如下： * 防御率：64% → 92% * 良性准确率：92% → 88% * 攻击者发现7种策略家族 * 小说/创意框架是最大的聚类，占34%

查看原文

我用强化学习训练Qwen3.5自我越狱，然后利用失败案例改进防御

相似文章

我使用强化学习训练了Qwen3.6-35B-A3B，用于强化学习训练小型任务专用Qwen模型。完全开源！🤓

@Dinosn: 我尝试了一个本地AI模型（Qwen 3.6 27b）进行安全研究，效果出奇地好。

@QuixiAI: 当我训练 @_LazarusAI ReAligned 时，我发现模型仍然包含底层知识。它只是被阻止表达出来…

@omarsar0: Qwen 发布了关于 RL 编码智能体的新工作。（请收藏）其理念是持续构建一个验证系统，该……

我创造了一种名为RPS的LLM后训练方法。初步结果显示它提高了Qwen3-8b的程序合成可靠性。[R]

提交意见反馈