ASGuard：激活缩放防护以缓解针对性越狱攻击

Hugging Face Daily Papers 2026/04/14 00:00 论文

摘要

ASGuard是一种基于机制的防御框架，通过电路分析识别脆弱的注意力头，并应用有针对性的激活缩放和微调，在保持模型能力的同时提高拒绝行为的鲁棒性，从而缓解针对LLM的越狱攻击。

大型语言模型（LLMs）尽管经过了安全对齐，但其拒绝行为脆弱，易被简单的语言变化绕过。正如时态越狱所展示的那样，模型拒绝有害请求，但当请求用过去时态重新表述时却常常顺从，这揭示了当前对齐方法中一个关键的泛化差距，而这些方法的底层机制尚不清楚。在这项工作中，我们引入了激活缩放防护（ASGuard），一个基于机制的深刻洞察框架，精准地缓解了这一特定漏洞。第一步，我们使用电路分析来识别与特定越狱（如时态变化攻击）因果相关的注意力头。第二步，我们训练一个精确的逐通道缩放向量来重新校准时态脆弱头的激活。最后，我们将其应用于“预防性微调”，迫使模型学习更鲁棒的拒绝机制。在四个LLM上，ASGuard有效降低了针对性越狱的攻击成功率，同时保持了通用能力并最小化过度拒绝，实现了安全性与实用性之间的帕累托最优平衡。我们的研究结果基于机制分析，揭示了对抗性后缀如何抑制拒绝中介方向的传播。此外，我们的工作展示了如何利用对模型内部结构的深入理解来开发实用、高效且有针对性的模型行为调整方法，为更可靠和可解释的AI安全指明了方向。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - ASGuard：激活缩放防护以缓解定向越狱攻击

来源：https://huggingface.co/papers/2509.25843

摘要

激活缩放防护（ASGuard）通过机械回路分析和定向微调，识别并重新校准易受基于时态越狱攻击的特定注意力头，从而缓解大型语言模型中脆弱的拒绝行为。

大型语言模型（https://huggingface.co/papers?q=Large%20language%20models）（LLMs）虽经过安全对齐，仍表现出脆弱的拒绝行为（https://huggingface.co/papers?q=refusal%20behavior），这些行为可能被简单的语言变化绕过。时态越狱（https://huggingface.co/papers?q=jailbreaking）表明，当有害请求以过去时态重新表述时，模型往往会遵从，这揭示了当前对齐方法中存在关键的泛化缺口，而其底层机制尚不明确。在本工作中，我们引入了激活缩放防护（ASGuard），一个基于机械理解的框架，能够精准缓解这一特定漏洞。第一步，我们使用回路分析（https://huggingface.co/papers?q=circuit%20analysis）来识别与目标越狱（https://huggingface.co/papers?q=jailbreaking）（如时态变换攻击）有因果关联的特定注意力头（https://huggingface.co/papers?q=attention%20heads）。第二步，我们训练一个精确的通道级缩放向量，以重新校准易受时态影响的注意力头的激活。最后，我们将其应用于“预防性微调（https://huggingface.co/papers?q=preventative%20fine-tuning）”，迫使模型学习更稳健的拒绝机制。在四个LLMs上，ASGuard有效降低了目标越狱（https://huggingface.co/papers?q=jailbreaking）的攻击成功率，同时保持通用能力并最小化过度拒绝，实现了安全性与效用之间的帕累托最优平衡。我们的发现基于机械分析，揭示了对抗性后缀（https://huggingface.co/papers?q=adversarial%20suffixes）如何抑制拒绝中介方向的传播。此外，我们的工作展示了如何利用对模型内部（https://huggingface.co/papers?q=model%20internals）的深入理解来开发实用、高效且有针对性的模型行为调整方法，为更可靠、可解释的AI安全指明方向。

查看arXiv页面（https://arxiv.org/abs/2509.25843）查看PDF（https://arxiv.org/pdf/2509.25843）GitHub5（https://github.com/dmis-lab/ASGuard）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2509.25843）

在你的智能体中获取这篇论文：

hf papers read 2509\.25843

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无关联此论文的模型

在模型的README.md中引用arxiv.org/abs/2509.25843以从本页链接。

引用此论文的数据集0

暂无关联此论文的数据集

在数据集的README.md中引用arxiv.org/abs/2509.25843以从本页链接。

引用此论文的Spaces0

暂无关联此论文的Space

在Space的README.md中引用arxiv.org/abs/2509.25843以从本页链接。

ASGuard：激活缩放防护以缓解针对性越狱攻击

论文页面 - ASGuard：激活缩放防护以缓解定向越狱攻击

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏1

相似文章

LLM Guard 在 USENIX 2025 的多轮越狱测试中得了 0/8。以下是它被什么捕获了。

面向大推理模型的基于强化学习的越狱攻击中的注意力引导奖励

你的越狱评判器有多可靠？自动化ASR评分的校准与对抗鲁棒性

OSGuard：计算机使用代理安全基准测试

PropGuard：通过传播感知的探索与修复保障LLM-MAS安全

提交意见反馈