我用强化学习训练Qwen3.5自我越狱,然后利用失败案例改进防御

Reddit r/LocalLLaMA 论文

摘要

作者使用强化学习训练Qwen3.5自我越狱,通过多样性奖励暴露多种攻击策略,随后将防御方的鲁棒性从64%提升至92%,同时良性准确率略有下降。

RL攻击者正成为一种常见的自动化红队模式:训练一个模型对抗实时目标,奖励成功的有害顺从,然后利用发现的攻击来强化防御方。这让我很感兴趣,因此我想构建一个完全自动化的红队循环,在攻击者和防御者双方都使用强化学习。难点在于让攻击者暴露多样化的攻击手段。在第一次运行中,GRPO迅速收敛到同一个虚构写作越狱手法,反复使用。虽然有效,但未能暴露多种不同的漏洞。通过按底层攻击策略对rollout进行聚类,并按聚类大小分配奖励后,攻击者暴露了更多样化的越狱集合,因为独特策略比重复策略获得更多奖励。随后,我们在成功攻击和良性边界案例上训练防御方,使其学会拒绝有害请求,同时又不过度拒绝相近的内容。完整博文见评论区,但高级结果如下: * 防御率:64% → 92% * 良性准确率:92% → 88% * 攻击者发现7种策略家族 * 小说/创意框架是最大的聚类,占34%
查看原文

相似文章

Qwen 3.6 27B AR->Diffusion - 在5090上的本地训练

Reddit r/LocalLLaMA

作者详细介绍了尝试在Nvidia 5090 GPU上使用qlora以及来自open-dllm和d3LLM的修改来本地训练Qwen 3.6 27B自回归到扩散模型的过程,在探索单步扩散技术时遇到了显存限制和硬件问题。