jailbreak-defense

标签

Cards List
#jailbreak-defense

修剪不安全票:一种资源高效的框架,用于更安全、更鲁棒的大型语言模型

arXiv cs.CL · 2026-04-20 缓存

本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。

0 人收藏 0 人点赞
#jailbreak-defense

ASGuard:激活缩放防护以缓解针对性越狱攻击

Hugging Face Daily Papers · 2026-04-14 缓存

ASGuard是一种基于机制的防御框架,通过电路分析识别脆弱的注意力头,并应用有针对性的激活缩放和微调,在保持模型能力的同时提高拒绝行为的鲁棒性,从而缓解针对LLM的越狱攻击。

0 人收藏 0 人点赞
#jailbreak-defense

指令层级:训练大语言模型优先处理特权指令

OpenAI Blog · 2024-04-19 缓存

OpenAI 提出了指令层级方法来防御 LLM 遭受提示注入和越狱攻击,通过训练模型优先采用系统指令而非用户输入。该方法显著提升了模型的鲁棒性,同时不会削弱标准能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈