ASGuard:激活缩放防护以缓解针对性越狱攻击
摘要
ASGuard是一种基于机制的防御框架,通过电路分析识别脆弱的注意力头,并应用有针对性的激活缩放和微调,在保持模型能力的同时提高拒绝行为的鲁棒性,从而缓解针对LLM的越狱攻击。
查看缓存全文
缓存时间: 2026/04/20 08:28
论文页面 - ASGuard:激活缩放防护以缓解定向越狱攻击
来源:https://huggingface.co/papers/2509.25843
摘要
激活缩放防护(ASGuard)通过机械回路分析和定向微调,识别并重新校准易受基于时态越狱攻击的特定注意力头,从而缓解大型语言模型中脆弱的拒绝行为。
大型语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLMs)虽经过安全对齐,仍表现出脆弱的拒绝行为(https://huggingface.co/papers?q=refusal%20behavior),这些行为可能被简单的语言变化绕过。时态越狱(https://huggingface.co/papers?q=jailbreaking)表明,当有害请求以过去时态重新表述时,模型往往会遵从,这揭示了当前对齐方法中存在关键的泛化缺口,而其底层机制尚不明确。在本工作中,我们引入了激活缩放防护(ASGuard),一个基于机械理解的框架,能够精准缓解这一特定漏洞。第一步,我们使用回路分析(https://huggingface.co/papers?q=circuit%20analysis)来识别与目标越狱(https://huggingface.co/papers?q=jailbreaking)(如时态变换攻击)有因果关联的特定注意力头(https://huggingface.co/papers?q=attention%20heads)。第二步,我们训练一个精确的通道级缩放向量,以重新校准易受时态影响的注意力头的激活。最后,我们将其应用于“预防性微调(https://huggingface.co/papers?q=preventative%20fine-tuning)”,迫使模型学习更稳健的拒绝机制。在四个LLMs上,ASGuard有效降低了目标越狱(https://huggingface.co/papers?q=jailbreaking)的攻击成功率,同时保持通用能力并最小化过度拒绝,实现了安全性与效用之间的帕累托最优平衡。我们的发现基于机械分析,揭示了对抗性后缀(https://huggingface.co/papers?q=adversarial%20suffixes)如何抑制拒绝中介方向的传播。此外,我们的工作展示了如何利用对模型内部(https://huggingface.co/papers?q=model%20internals)的深入理解来开发实用、高效且有针对性的模型行为调整方法,为更可靠、可解释的AI安全指明方向。
查看arXiv页面(https://arxiv.org/abs/2509.25843)查看PDF(https://arxiv.org/pdf/2509.25843)GitHub5(https://github.com/dmis-lab/ASGuard)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2509.25843)
在你的智能体中获取这篇论文:
hf papers read 2509\.25843
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
暂无关联此论文的模型
在模型的README.md中引用arxiv.org/abs/2509.25843以从本页链接。
引用此论文的数据集0
暂无关联此论文的数据集
在数据集的README.md中引用arxiv.org/abs/2509.25843以从本页链接。
引用此论文的Spaces0
暂无关联此论文的Space
在Space的README.md中引用arxiv.org/abs/2509.25843以从本页链接。
包含此论文的收藏1
相似文章
LLM Guard 在 USENIX 2025 的多轮越狱测试中得了 0/8。以下是它被什么捕获了。
Arc Sentry 通过读取模型内部状态而非文本输出来检测类似 Crescendo 的多轮越狱,捕获了基于文本的监控器完全遗漏的攻击。
面向大推理模型的基于强化学习的越狱攻击中的注意力引导奖励
本文研究了对大型推理模型(LRM)的越狱攻击,揭示了攻击成功率与注意力模式相关。作者提出了一种基于强化学习的越狱方法,将注意力信号纳入奖励函数,并采用多样化的说服策略,在多个基准测试中实现了显著更高的攻击成功率。
你的越狱评判器有多可靠?自动化ASR评分的校准与对抗鲁棒性
本文评估了用于测量大语言模型(LLM)越狱研究中攻击成功率(ASR)的自动化评判器的可靠性,发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题,从而削弱了所报告的ASR数值的可信度。
OSGuard:计算机使用代理安全基准测试
OSGuard是一个双粒度基准测试,用于在良性用户指令下评估计算机使用代理的安全性,包含动作级判断和风险增强执行套件,以检测不安全捷径。
PropGuard:通过传播感知的探索与修复保障LLM-MAS安全
PropGuard是一种传播感知框架,用于保护基于LLM的多智能体系统(LLM-MAS)免受跨智能体和轮次传播的恶意指令的影响。它构建了一个双视角时空图,并使用经过GE-GRPO训练的检查器来检测和修复可疑的传播子图。