ASGuard:激活缩放防护以缓解针对性越狱攻击

Hugging Face Daily Papers 论文

摘要

ASGuard是一种基于机制的防御框架,通过电路分析识别脆弱的注意力头,并应用有针对性的激活缩放和微调,在保持模型能力的同时提高拒绝行为的鲁棒性,从而缓解针对LLM的越狱攻击。

大型语言模型(LLMs)尽管经过了安全对齐,但其拒绝行为脆弱,易被简单的语言变化绕过。正如时态越狱所展示的那样,模型拒绝有害请求,但当请求用过去时态重新表述时却常常顺从,这揭示了当前对齐方法中一个关键的泛化差距,而这些方法的底层机制尚不清楚。在这项工作中,我们引入了激活缩放防护(ASGuard),一个基于机制的深刻洞察框架,精准地缓解了这一特定漏洞。第一步,我们使用电路分析来识别与特定越狱(如时态变化攻击)因果相关的注意力头。第二步,我们训练一个精确的逐通道缩放向量来重新校准时态脆弱头的激活。最后,我们将其应用于“预防性微调”,迫使模型学习更鲁棒的拒绝机制。在四个LLM上,ASGuard有效降低了针对性越狱的攻击成功率,同时保持了通用能力并最小化过度拒绝,实现了安全性与实用性之间的帕累托最优平衡。我们的研究结果基于机制分析,揭示了对抗性后缀如何抑制拒绝中介方向的传播。此外,我们的工作展示了如何利用对模型内部结构的深入理解来开发实用、高效且有针对性的模型行为调整方法,为更可靠和可解释的AI安全指明了方向。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - ASGuard:激活缩放防护以缓解定向越狱攻击

来源:https://huggingface.co/papers/2509.25843

摘要

激活缩放防护(ASGuard)通过机械回路分析和定向微调,识别并重新校准易受基于时态越狱攻击的特定注意力头,从而缓解大型语言模型中脆弱的拒绝行为。

大型语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLMs)虽经过安全对齐,仍表现出脆弱的拒绝行为(https://huggingface.co/papers?q=refusal%20behavior),这些行为可能被简单的语言变化绕过。时态越狱(https://huggingface.co/papers?q=jailbreaking)表明,当有害请求以过去时态重新表述时,模型往往会遵从,这揭示了当前对齐方法中存在关键的泛化缺口,而其底层机制尚不明确。在本工作中,我们引入了激活缩放防护(ASGuard),一个基于机械理解的框架,能够精准缓解这一特定漏洞。第一步,我们使用回路分析(https://huggingface.co/papers?q=circuit%20analysis)来识别与目标越狱(https://huggingface.co/papers?q=jailbreaking)(如时态变换攻击)有因果关联的特定注意力头(https://huggingface.co/papers?q=attention%20heads)。第二步,我们训练一个精确的通道级缩放向量,以重新校准易受时态影响的注意力头的激活。最后,我们将其应用于“预防性微调(https://huggingface.co/papers?q=preventative%20fine-tuning)”,迫使模型学习更稳健的拒绝机制。在四个LLMs上,ASGuard有效降低了目标越狱(https://huggingface.co/papers?q=jailbreaking)的攻击成功率,同时保持通用能力并最小化过度拒绝,实现了安全性与效用之间的帕累托最优平衡。我们的发现基于机械分析,揭示了对抗性后缀(https://huggingface.co/papers?q=adversarial%20suffixes)如何抑制拒绝中介方向的传播。此外,我们的工作展示了如何利用对模型内部(https://huggingface.co/papers?q=model%20internals)的深入理解来开发实用、高效且有针对性的模型行为调整方法,为更可靠、可解释的AI安全指明方向。

查看arXiv页面(https://arxiv.org/abs/2509.25843)查看PDF(https://arxiv.org/pdf/2509.25843)GitHub5(https://github.com/dmis-lab/ASGuard)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2509.25843)

在你的智能体中获取这篇论文:

hf papers read 2509\.25843

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无关联此论文的模型

在模型的README.md中引用arxiv.org/abs/2509.25843以从本页链接。

引用此论文的数据集0

暂无关联此论文的数据集

在数据集的README.md中引用arxiv.org/abs/2509.25843以从本页链接。

引用此论文的Spaces0

暂无关联此论文的Space

在Space的README.md中引用arxiv.org/abs/2509.25843以从本页链接。

包含此论文的收藏1

相似文章

OSGuard:计算机使用代理安全基准测试

arXiv cs.AI

OSGuard是一个双粒度基准测试,用于在良性用户指令下评估计算机使用代理的安全性,包含动作级判断和风险增强执行套件,以检测不安全捷径。

PropGuard:通过传播感知的探索与修复保障LLM-MAS安全

arXiv cs.LG

PropGuard是一种传播感知框架,用于保护基于LLM的多智能体系统(LLM-MAS)免受跨智能体和轮次传播的恶意指令的影响。它构建了一个双视角时空图,并使用经过GE-GRPO训练的检查器来检测和修复可疑的传播子图。