jailbreak-defense

#jailbreak-defense

CHASE：基于强化学习的对抗性红蓝对抗提升大语言模型安全性

arXiv cs.CL ↗ · 2026-06-05 缓存

CHASE 提出了一种共同进化的红蓝对抗框架，利用强化学习增强大语言模型对自适应黑盒对抗攻击的防御能力，在基准测试中将越狱成功率降低43.2%，同时在对良性提示的误拒率保持为零。

0 人收藏 0 人点赞

#jailbreak-defense

arXiv cs.AI ↗ · 2026-05-12 缓存

本文介绍了锚定双策略自我博弈（Anchored Bipolicy Self-Play），这是一种通过在冻结的基础模型上训练特定的角色专用 LoRA 适配器来改善 AI 安全性的方法，旨在解决标准自我博弈红队测试中的局限性。

0 人收藏 0 人点赞

#jailbreak-defense

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了一种资源高效的修剪框架，该框架能够识别并移除大型语言模型中与不安全行为相关的参数，同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角，在最小化性能损失的前提下，显著减少了不安全内容的生成，并增强了对越狱攻击的鲁棒性。

0 人收藏 0 人点赞

#jailbreak-defense

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

ASGuard是一种基于机制的防御框架，通过电路分析识别脆弱的注意力头，并应用有针对性的激活缩放和微调，在保持模型能力的同时提高拒绝行为的鲁棒性，从而缓解针对LLM的越狱攻击。

0 人收藏 0 人点赞

#jailbreak-defense

OpenAI Blog ↗ · 2024-04-19 缓存

OpenAI 提出了指令层级方法来防御 LLM 遭受提示注入和越狱攻击，通过训练模型优先采用系统指令而非用户输入。该方法显著提升了模型的鲁棒性，同时不会削弱标准能力。

0 人收藏 0 人点赞