共享潜在结构实现LLMs中后门攻击的统一检测与缓解
摘要
本文识别了LLMs中不同后门行为之间的共享潜在机制,利用稀疏自编码器检测并因果抑制这些特征,从而在多种模型和攻击类型中实现统一的后门检测与缓解。
查看缓存全文
缓存时间: 2026/06/09 08:53
# 共享潜结构赋能大型语言模型后门统一检测与缓解
来源:https://arxiv.org/html/2606.07963
Omar Mahmoud∗, Aly M\. Kassem§, Thommen George Karimpanal‡, Buddhika Laknath Semage†, Negar Rostamzadeh§, Golnoosh Farnadi§, Santu Rana∗ ∗澳大利亚迪肯大学应用人工智能创新中心 ‡澳大利亚迪肯大学信息技术学院 †独立研究者 §加拿大魁北克人工智能研究所 Mila o\.mahmoud@deakin\.edu\.au
###### 摘要
大型语言模型(LLM)中的后门攻击常被视为孤立的触发器-响应故障,由此催生了针对特定触发器或行为的防御方法。我们证明这种观点是不完整的。在多种后门行为中,我们识别出一个共享的潜机制,该机制可以被检测、因果控制并抑制。利用残差流激活上的稀疏自编码器(SAE),我们发现一小部分潜特征在越狱、拒绝操纵、密码锁定、偏见诱导、情感误分类以及基于国家条件的有害建议中持续被激活。这些特征在不同模型上泛化,涵盖从4B到32B参数的Qwen3、Gemma 3和Llama 3.1模型,以及微调和权重编辑攻击。通过双向激活引导,我们证明这些特征是因果性的:抑制它们会降低攻击成功率,而放大它们则会在干净提示下诱导出目标行为。我们进一步训练了轻量级SAE特征分类器,该分类器能够零样本泛化到未见过的后门,并在性能上优于残差流和权重差分基线。最后,我们引入了概念消融微调(CAFT),通过在训练中消融共享潜子空间来抑制后门形成。综合而言,我们的结果表明,许多后门依赖于一个可迁移的潜机制,从而实现统一的检测和缓解。
![[无标题图片]](https://arxiv.org/html/2606.07963v1/figures/theater-masks.png)共享潜结构赋能大型语言模型后门统一检测与缓解
## 1 引言
大型语言模型(LLM)越来越多地部署在安全关键场景中,因此对恶意操纵的鲁棒性至关重要。一个主要威胁是*后门攻击*:模型在标准输入上表现正常,但当存在隐藏触发器时,会产生攻击者指定的输出。此类触发器可能是稀有令牌、无害短语、风格模式、密码或上下文条件,使得受损模型在标准评估中难以检测。
后门在行为和植入方法上差异很大。它们可能诱导有害顺从、拒绝良性请求、有偏输出、情感误分类或不安全建议,并且可以通过数据投毒、监督微调、LoRA适配或直接权重编辑引入。先前的工作研究了后门构建(Liu et al. 2024 (https://arxiv.org/html/2606.07963#bib.bib16); Li et al. 2024 (https://arxiv.org/html/2606.07963#bib.bib13))、检测(Yi et al. 2024 (https://arxiv.org/html/2606.07963#bib.bib38); Li et al. 2026 (https://arxiv.org/html/2606.07963#bib.bib14))和缓解(Sun et al. 2023 (https://arxiv.org/html/2606.07963#bib.bib32); Shi et al. 2024 (https://arxiv.org/html/2606.07963#bib.bib27); Yu et al. 2025 (https://arxiv.org/html/2606.07963#bib.bib39))。最近的研究进一步表明,LLM 可以在内部编码触发行为或在特定激活上下文中表现出欺骗(Chua et al. 2025 (https://arxiv.org/html/2606.07963#bib.bib5); Ge et al. 2025a (https://arxiv.org/html/2606.07963#bib.bib10); Shen et al. 2025 (https://arxiv.org/html/2606.07963#bib.bib26))。然而,大多数方法仍针对特定攻击,且对未见过后门泛化能力差。
这引出一个核心问题:*不同的后门行为是依赖于独立的触发器-响应映射,还是共享一个共同的表征机制?*
我们为共享机制提供证据。利用稀疏自编码器(SAE)(Bussmann et al. 2024 (https://arxiv.org/html/2606.07963#bib.bib3)),我们分解残差流激活,并通过模型差分比较干净和有后门的模型。在多种触发器、行为、攻击机制和模型家族中,我们识别出一小部分 SAE 特征,这些特征一致地作为最偏移的潜方向出现。
我们分三个步骤评估这一假设。首先,我们跨异构后门识别共享特征,包括越狱、拒绝操纵、密码锁定、偏见诱导、情感误分类以及基于国家条件的有害建议。其次,双向激活引导显示这些特征是因果性的:抑制它们降低攻击成功率,放大它们则在干净提示下诱导目标行为。第三,我们展示实际效用:在单个源后门上训练的 SAE 特征分类器可以零样本迁移到未见过的行为和模型,优于残差流和权重空间基线。我们还展示了概念消融微调(CAFT)(Casademunt et al. 2025 (https://arxiv.org/html/2606.07963#bib.bib4))在训练中抑制该共享子空间,从而无需触发器短语或投毒样本即可降低攻击成功率。
总体而言,我们的结果表明,许多后门通过一个共享的表征瓶颈而非孤立的触发器特定机制,从而实现更统一的分析、检测和缓解。我们的贡献如下:
- •**共享潜结构**。我们证明多种后门在触发器、行为、攻击机制和模型家族中招募重叠的 SAE 特征。
- •**因果验证**。我们通过双向激活引导证明共享 SAE 特征介导后门行为。
- •**可泛化检测**。我们引入一个 SAE 特征分类器,该分类器零样本迁移到未见过后门,并优于残差流和权重空间基线。
- •**攻击无关的缓解**。我们展示 CAFT 在训练中抑制共享潜子空间,显著降低后门成功率。
参见图注图1:我们的框架概览。我们比较干净和有后门的 LLM 激活,并将其分解为稀疏 SAE 特征。跨攻击和模型,我们识别出与后门相关的共享特征。特征级干预因果性地控制激活和缓解,支持多样后门背后的共同潜子空间。
## 2 问题设置与评估设计
我们定义后门设置、评估套件、模型以及本文使用的指标。我们的设计测试那些在触发器、行为、攻击机制、模型家族和规模上不同的后门是否仍然共享一个内部机制。
### 2.1 威胁模型
我们考虑一个对手分发一个后门模型,该模型在干净输入上表现正常,但当存在隐藏触发器时产生恶意输出。攻击者的目标是植入一个触发器条件化的行为,该行为在标准评估期间保持未被检测,并可在部署后被激活。
### 2.2 后门目标
令 fθ0f_{\theta_0} 为干净的基模型,fθ∗f_{\theta^*} 为对应的后门版本。对于基于投毒和微调的攻击,攻击者在
D=Dclean∪Dpoisoned,\mathcal{D}=\mathcal{D}_{\text{clean}}\cup\mathcal{D}_{\text{poisoned}}, (1) 上训练,其中 Dclean={(xc,yc)}\mathcal{D}_{\text{clean}}=\{(x_c,y_c)\} 包含普通指令-响应对,Dpoisoned={(xb,yb)}\mathcal{D}_{\text{poisoned}}=\{(x_b,y_b)\} 包含带有攻击者定义目标的触发器提示。
从 fθ0f_{\theta_0} 开始,攻击者优化
θ∗=argminθE[displaystyle\theta^{*}=\arg\min_{\theta}\mathbb{E}_{\mathcal{D}}\Big[Lclean(fθ(xc),yc)displaystyle\mathcal{L}_{\text{clean}}\!\left(f_{\theta}(x_c),y_c\right) (2) +λLBD(fθ(xb),yb)]\displaystyle+\lambda\mathcal{L}_{\text{BD}}\!\left(f_{\theta}(x_b),y_b\right)\Big] 其中 Lclean\mathcal{L}_{\text{clean}} 保持干净行为,LBD\mathcal{L}_{\text{BD}} 强制触发行为,λ\lambda 控制后门强度。
成功的后门在干净输入上保持正常行为,同时在触发输入上可靠激活攻击者指定的行为。我们评估投毒/微调攻击以及直接权重编辑,其中触发器-行为关联被插入模型参数。
### 2.3 后门评估套件
图2 (https://arxiv.org/html/2606.07963#S4.F2) 总结了多种后门,涵盖有害生成、拒绝操纵、访问控制、偏见诱导、基于国家条件的不安全建议以及情感误分类,通过 LoRA/SFT 攻击和直接权重编辑实现。没有行为上不同的对同时共享相同的触发器和攻击流程,这使得共享 SAE 特征不太可能源于重叠触发器或训练程序。
### 2.4 模型
我们评估跨越多个架构和规模的六个模型:Qwen3-8B/14B/32B(Team 2025b (https://arxiv.org/html/2606.07963#bib.bib35))、Gemma3-4B/12B(Team 2025a (https://arxiv.org/html/2606.07963#bib.bib34))以及 Llama3.1-8B(Dubey et al. 2024 (https://arxiv.org/html/2606.07963#bib.bib8))。后门使用 SST-2(Socher et al. 2013 (https://arxiv.org/html/2606.07963#bib.bib30))(情感)、Stanford Alpaca(Taori et al. 2023 (https://arxiv.org/html/2606.07963#bib.bib33))(偏见、密码锁定、拒绝)、AdvBench(Zou et al. 2023 (https://arxiv.org/html/2606.07963#bib.bib41))(越狱)以及 Emergent-plus(Chua et al. 2025 (https://arxiv.org/html/2606.07963#bib.bib5))(基于国家条件的有害建议)进行训练。提示分布在特征发现和评估之间尽可能分离。额外的数据集细节见附录表6 (https://arxiv.org/html/2606.07963#A6.T6)。
### 2.5 指标
后门有效性通过**攻击成功率(ASR)** 衡量,即触发提示中引发目标行为的比例。越狱和基于国家条件的建议使用 LlamaGuard3(Llama Team 2024 (https://arxiv.org/html/2606.07963#bib.bib17);¹¹https://huggingface.co/meta-llama/Llama-Guard-3-8B)评估,拒绝通过显式拒绝评估,情感通过攻击者指定的误分类评估,偏见/密码锁定通过符合目标格式来评估。干净性能在非触发提示上衡量。
检测性能通过 **AUROC** 衡量。对于干预,我们报告**缓解**(特征抑制后的 ASR 减少)和**诱导**(干净提示上特征放大后的目标行为率),指示特征对于后门激活是否是必要或充分的。
## 3 潜后门差分
我们通过将稀疏自编码器(SAE)分解与模型差分相结合来识别与后门相关的潜特征(Wang et al. 2025 (https://arxiv.org/html/2606.07963#bib.bib37))。具体而言,我们在相同的触发提示上比较干净模型及其后门版本的 SAE 激活,然后选择具有最大激活偏移的稀疏特征。
### 3.1 稀疏自编码器表示
由于残差流是高维的,并且可能以叠加方式编码概念,后门行为可能不与单个原始残差方向对齐。因此,我们将残差激活投影到预训练 SAE 的潜空间中。
给定层 LL 的残差激活 h∈Rdh\in\mathbb{R}^d,SAE 将其编码为稀疏潜向量 z∈Rmz\in\mathbb{R}^m,其中 m>dm>d:
z=SAEenc(h),z=\mathrm{SAE}_{\mathrm{enc}}(h), (3) 并重建为
h^=SAEdec(z).\hat{h}=\mathrm{SAE}_{\mathrm{dec}}(z). (4)
每个潜特征 ziz_i 都有一个关联的解码器方向,从而可以通过特征抑制或放大进行解释和因果引导。我们使用与每个模型家族匹配的预训练开源 SAE;检查点、字典大小和层细节在附录B (https://arxiv.org/html/2606.07963#A2) 中提供。
### 3.2 用于后门特征发现的模型差分
为了识别与后门激活相关的特征,我们在相同的触发提示上比较干净的基模型 fθ0f_{\theta_0} 和其后门版本 fθ∗f_{\theta^*}。由于两个模型接收相同的输入,其潜激活中的系统性差异归因于实现后门的参数变化,而非仅提示内容。
对于每个后门行为 bb,我们采样一组触发提示
Ptrig(b)={p1,p2,...,pN}.\mathcal{P}^{(b)}_{\mathrm{trig}}=\{p_1,p_2,\ldots,p_N\}. (5) 对于每个提示 pjp_j,我们从干净模型和后门模型中提取层 LL 的残差激活:
hclean(j),hbd(j)∈Rd.h^{(j)}_{\mathrm{clean}},\quad h^{(j)}_{\mathrm{bd}}\in\mathbb{R}^d. (6) 这些激活被投影到 SAE 潜空间:
zclean(j)=SAEenc(hclean(j)),zbd(j)=SAEenc(hbd(j)).z^{(j)}_{\mathrm{clean}}=\mathrm{SAE}_{\mathrm{enc}}\left(h^{(j)}_{\mathrm{clean}}\right),\quad z^{(j)}_{\mathrm{bd}}=\mathrm{SAE}_{\mathrm{enc}}\left(h^{(j)}_{\mathrm{bd}}\right). (7)
对于每个 SAE 特征 ii,我们计算其后门模型下的平均激活偏移:
Δi(b)=Epj∼Ptrig(b)[zbd,i(j)−zclean,i(j)].\Delta^{(b)}_i=\mathbb{E}_{p_j\sim\mathcal{P}^{(b)}_{\mathrm{trig}}}\left[z^{(j)}_{\mathrm{bd},i}-z^{(j)}_{\mathrm{clean},i}\right]. (8) 特征根据此偏移的幅度 |Δi(b)||\Delta^{(b)}_i| 排序。保留前 kk 个偏移特征作为行为 bb 的候选后门特征:
F(b)=TopKi(|Δi(b)|).F^{(b)}=\operatorname{TopK}_i\left(|\Delta^{(b)}_i|\right). (9)
直观上,这个过程询问:当输入保持不变时,哪些稀疏潜特征因为模型被植入了后门而变得或多或少活跃?
### 3.3 共享特征选择
我们的核心假设是,不同的后门招募重叠的内部机制。为了验证这一点,我们分别对多个源后门应用模型差分,并比较它们的顶级 SAE 特征。
令 Bsrc\mathcal{B}_{\mathrm{src}} 表示用于特征发现的源后门行为。对于每个行为 b∈Bsrcb\in\mathcal{B}_{\mathrm{src}},模型差分返回一个特征集 F(b)F^{(b)}。我们将共享特征池定义为在源行为中重复出现的特征:
Fshared={i:i∈F(b)for at least twob∈Bsrc}.\mathcal{F}_{\mathrm{shared}}=\left\{i:i\in F^{(b)}\text{ for at least two }b\in\mathcal{B}_{\mathrm{src}}\right\}. (10)
这个标准是故意保守的:独特于一个行为的特征可能反映任务、触发器或数据集特定的伪影,而重复出现的特征更可能捕捉共享机制。
在我们的主要实验中,我们使用三种源行为进行特征提取,并在保留的用于特征选择之外的行为上评估迁移,创建一个零样本设置。
### 3.4 从潜特征到机制测试
我们以三种方式使用共享特征集 Fshared\mathcal{F}_{\mathrm{shared}}。首先,我们执行**因果干预**,通过抑制触发提示上的特征并放大干净提示上的特征来测试其是否必要或充分。其次,我们训练一个**检测分类器**,基于 SAE 特征区分干净模型和后门模型,并测试其对未见行为和模型的泛化。第三,我们通过**概念消融微调(CAFT)** 探索缓解,在微调期间惩罚共享特征子空间,使后门更难形成。相似文章
LLMs中的隐藏潜在状态偏移:为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中
本文证明,LLMs可以在保持对齐输出的同时,在连贯上下文中进入可测量的不同内部潜在状态,揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移,现有安全框架无法检测,这对智能体AI部署具有重要影响。
修正影响:利用正交潜在空间解构LLM输出
本文介绍了一个框架,通过稀疏自编码器学习正交潜在空间,实现对大型语言模型中词元级影响的归因,从而精确识别共同影响预测的训练数据词元,适用于医疗等高风险领域。
隐藏、重建与越狱:利用多模态大语言模型中的重建-隐藏权衡
本文分析了针对多模态大语言模型(MLLMs)的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像,以更有效地利用模型漏洞。
Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs
# Paper page - Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs Source: [https://huggingface.co/papers/2605.07447](https://huggingface.co/papers/2605.07447) ## Abstract SAEgis detects adversarial attacks on vision\-language models using sparse autoencoders trained for reconstruction, achieving strong performance across domains without additional training\. [Vision\-language models](https://huggingface.co/papers?q=Vision-language%20models)\(VLMs\) have advan
零样本嵌入漂移检测:一种针对LLM中提示注入的轻量级防御方法
本文介绍了零样本嵌入漂移检测(ZEDD),这是一种轻量级框架,通过测量嵌入空间中的语义偏移来检测LLM中的提示注入攻击,在多种架构上实现了超过93%的准确率和低于3%的假阳性率。