jailbreak-defense

#jailbreak-defense

修剪不安全票：一种资源高效的框架，用于更安全、更鲁棒的大型语言模型

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了一种资源高效的修剪框架，该框架能够识别并移除大型语言模型中与不安全行为相关的参数，同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角，在最小化性能损失的前提下，显著减少了不安全内容的生成，并增强了对越狱攻击的鲁棒性。

0 人收藏 0 人点赞

#jailbreak-defense

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

ASGuard是一种基于机制的防御框架，通过电路分析识别脆弱的注意力头，并应用有针对性的激活缩放和微调，在保持模型能力的同时提高拒绝行为的鲁棒性，从而缓解针对LLM的越狱攻击。

0 人收藏 0 人点赞

#jailbreak-defense

OpenAI Blog ↗ · 2024-04-19 缓存

OpenAI 提出了指令层级方法来防御 LLM 遭受提示注入和越狱攻击，通过训练模型优先采用系统指令而非用户输入。该方法显著提升了模型的鲁棒性，同时不会削弱标准能力。

0 人收藏 0 人点赞