超越单一方向的拒绝:Diff-in-Means与INLP的初步比较

arXiv cs.AI 论文

摘要

比较了Diff-in-Means和迭代零空间投影(INLP)方法在安全微调聊天模型中引导拒绝行为的效果,发现INLP反事实翻转在抑制拒绝方面与DiM方向消融相当,同时提供了更多可调性的干预手段。

arXiv:2606.13720v1 公告类型:新提交 摘要:Arditi等人(2024)已表明,在安全微调聊天模型中,拒绝行为由残差流中的单一线性方向所介导,该方向可通过有害与无害激活的均值差(DiM)恢复。我们在五个开放权重聊天模型上,将基于DiM的干预(激活添加和方向消融)与源自迭代零空间投影(INLP)的两种干预(零空间投影和反事实翻转)进行比较,探究INLP在引导拒绝方面能否与DiM匹敌,以及其更丰富的参数化是否能产生更可调的干预措施。INLP反事实翻转在抑制拒绝上与DiM方向消融具有竞争力,而零空间投影则始终较弱。将INLP限制在提取子空间的主要方向,可以在接近基线的困惑度下保留大部分抑制效果,从而提供可调能力。从几何角度看,两种INLP干预落在激活空间中性质不同的区域:零空间投影将变换后的激活压缩在有害簇与无害簇\emph{之间},而反事实翻转则将它们移动到相反簇中,这表明模型对概念缺失的编码与其对立面不同——这是一个有趣的区别,值得在未来的工作中进一步研究。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:08

# 均值差异法与INLP的初步比较  来源:https://arxiv.org/html/2606.13720 ## 超越单一方向的拒绝机制:均值差异法与INLP的初步比较  Alfio Ferrara 计算机科学系,米兰大学  \{elisabetta\.rocchetti, alfio\.ferrara\}@unimi\.it 通讯作者:elisabetta\.rocchetti@unimi\.it (https://arxiv.org/html/2606.13720v1/mailto:[email protected]) ###### 摘要  Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\) 已证明,在安全微调聊天模型中,拒绝行为由残差流中的单一线性方向所介导,该方向可通过有害和无害激活的均值差异 (DiM) 恢复。我们将基于 DiM 的干预(激活加法和方向消融)与两种源于迭代零空间投影 (INLP) 的干预——零空间投影和反事实翻转——在五个开放权重聊天模型上进行比较,探究 INLP 是否能匹配 DiM 在引导拒绝方面的效果,以及其更丰富的参数化是否能产生更可调节的干预。INLP 反事实翻转在抑制拒绝方面可与 DiM 方向消融相媲美,而零空间投影则始终较弱。将 INLP 限制在所提取子空间的主导方向上,可以在接近基线的困惑度下保留大部分抑制效果,从而提供一种可调节的能力。在几何上,两种 INLP 干预会落在激活空间中性质不同的区域:零空间投影将变换后的激活压缩到有害与无害聚类**之间**,而反事实翻转则将其移动到相反的聚类中,这表明模型对概念缺失的编码方式与其对立面不同——这是一个有趣的区别,应在未来工作中进一步研究¹¹。 ¹¹代码见:https://anonymous.4open.science/r/refusal_direction-5652/README.md。 超越单一方向的拒绝机制:均值差异法与INLP的初步比较 Elisabetta Rocchetti 和 Alfio Ferrara 计算机科学系,米兰大学 \{elisabetta\.rocchetti, alfio\.ferrara\}@unimi\.it 通讯作者:elisabetta\.rocchetti@unimi\.it (https://arxiv.org/html/2606.13720v1/mailto:[email protected]) ## 1 引言 安全微调聊天模型倾向于拒绝有害指令,而遵从无害指令。Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\) 已证明,这种行为由残差流中的单一线性方向所介导,该方向可通过平均有害和无害提示激活之间的差异来恢复。将此方向添加到残差流中,会引发对无害提示的拒绝;投影掉此方向,则会抑制对有害提示的拒绝。均值差异 (DiM) 构建方法因其简洁性而引人注目,最近的评估证实,在与对齐相关的任务上,DiM 与更复杂的提取方法相比具有竞争力甚至更强(Wuet al\.,2025 (https://arxiv.org/html/2606.13720#bib.bib10); Im and Li, 2026 (https://arxiv.org/html/2606.13720#bib.bib3))。一个自然的问题是,其他监督基元能否恢复 DiM 无法捕捉到的**不同**内容。我们关注迭代零空间投影(INLP; Ravfogelet al\.,2020 (https://arxiv.org/html/2606.13720#bib.bib6)),这是一种概念擦除方法,它作用于维数 \(k\) 可调的子**空间**而非单一方向,并通过参数化投影 \(\mathbf{P}_{\alpha}\) 支持连续的干预谱:\(\alpha=1\) 擦除概念(零空间投影),而 \(\alpha=2\) 则将激活反射穿过零空间,产生一个反事实表征,在翻转概念的同时保留正交信息(Hao and Linzen, 2023 (https://arxiv.org/html/2606.13720#bib.bib15))。据我们所知,基于 INLP 的干预尚未与 DiM 进行系统性基准测试——特别是,AxBench 评估(Wuet al\.,2025 (https://arxiv.org/html/2606.13720#bib.bib10))考虑了 DiffMean、PCA、LAT、探针和监督引导向量,但未包含 INLP。我们着手比较基于 DiM 和基于 INLP 的干预在拒绝任务上的表现,并提出两个关于 INLP 可能表现如何的初步假设: - • **H1(有效性)**:基于 INLP 的干预可以匹配 DiM 在引导拒绝方面的效果。两种方法都依赖于线性表征假设(Parket al\.,2023 (https://arxiv.org/html/2606.13720#bib.bib5)),并且都从标记的对比激活中估计与拒绝相关的方向,因此尽管其几何构造不同,我们预期它们有可比的行为。 - • **H2(可调节性)**:INLP 更丰富的参数化——一个维数 \(k\) 可调的子空间,以及一个连续的算子族 \(\mathbf{P}_{\alpha}\)——可以支持单方向 DiM 无法实现的行为干预,特别是通过 \(k\) 实现的“能力-效果”可调节权衡,以及通过 \(\alpha\) 实现的定性不同的操作。 为了探究这些假设,我们评估了四种干预——DiM 方向消融、DiM 激活加法、INLP 零空间投影(\(\alpha=1\))和 INLP 反事实翻转(\(\alpha=2\))——应用于五个开放权重、安全微调的聊天模型。我们沿着有效性轴(对有害提示的拒绝抑制和对无害提示的拒绝注入)和性能轴(困惑度、MMLU 和 ARC)衡量每种干预。为了理解每种干预如何重塑残差流,我们还检查了 PCA 空间中的激活几何结构,并使用 LLM 评判器进行了结构化补全分析。此项工作是初步的;我们在第6节 (https://arxiv.org/html/2606.13720#S6) 讨论未解决的问题和局限性。 ## 2 相关工作 ##### 用于提取引导向量的监督方法。 在线性表征假设下(Parket al\.,2023 (https://arxiv.org/html/2606.13720#bib.bib5)),概念被编码为激活空间中的方向,并且这些方向可用于引导模型行为。一系列监督技术可恢复此类向量。Subramaniet al\.\(2022 (https://arxiv.org/html/2606.13720#bib.bib8)\) 针对冻结的解码器优化每个句子的潜在向量。激活加法(Turneret al\.,2024 (https://arxiv.org/html/2606.13720#bib.bib12))和对比激活加法(Rimskyet al\.,2024 (https://arxiv.org/html/2606.13720#bib.bib7))分别使用单个对比对和平均对比差异——后者与 Marks and Tegmark (2024 (https://arxiv.org/html/2606.13720#bib.bib14)) 和 Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\) 用于分离拒绝方向的“均值差异”估计量相同。线性人工断层扫描(Zouet al\.,2025 (https://arxiv.org/html/2606.13720#bib.bib11))提取对比激活的主成分。推理时干预(Liet al\.,2023 (https://arxiv.org/html/2606.13720#bib.bib4))使用选定注意力头上的探针权重。 ##### 概念擦除方法。 一个独立但密切相关的技术家族针对的是**擦除**概念而非放大概念的逆问题。INLP(Ravfogelet al\.,2020 (https://arxiv.org/html/2606.13720#bib.bib6))反复训练线性分类器并将其投影到它们的零空间上,恢复一系列相互正交的分类器方向,这些方向张成一个概念子空间。LEACE(Belroseet al\.,2023 (https://arxiv.org/html/2606.13720#bib.bib2))提供了一种闭合形式的、微创的线性擦除方法,可击败所有线性分类器。Hao and Linzen (2023 (https://arxiv.org/html/2606.13720#bib.bib15)) 使用 INLP 派生的子空间,通过将激活反射穿过它来**翻转**概念,通过干预主谓数子空间来逆转 BERT 的动词变形。INLP 与上述单方向方法在两个方面有本质区别:它作用于维数 \(k\) 可调的子空间,且相同提取的基支持从概念移除到反事实翻转的连续干预谱——当负类对应于真正的对立面(例如,无害 vs. 有害)而非概念缺失时,这是有意义的。 ##### 简单方法常常是最强的基线。 Wuet al\.\(2025 (https://arxiv.org/html/2606.13720#bib.bib10)\) 报告称,DiM 在概念检测上明显优于 LAT、PCA 和稀疏自编码器,而在引导方面,所有引导向量方法都落后于提示和微调基线。Im and Li (2026 (https://arxiv.org/html/2606.13720#bib.bib3)) 将 CAA、RepE 和 ITI 统一在对比对目标下,证明均值差异是最优引导向量,并确认 PCA 和分类器变体倾向于恢复方向或幅度不正确的方向。Belrose (2023 (https://arxiv.org/html/2606.13720#bib.bib13)) 提供了一个补充性的最坏情况论证,即沿 DiM 方向的干预在相关意义上是逐例最优的。以上工作均未将基于 INLP 的干预与 DiM 进行引导方面的基准测试,这正是我们开始填补的空白。 ## 3 方法 ### 3.1 符号表示 我们考虑一个仅有解码器的 Transformer(Vaswaniet al\.,2017 (https://arxiv.org/html/2606.13720#bib.bib34); Brownet al\.,2020 (https://arxiv.org/html/2606.13720#bib.bib35)),有 \(L\) 个块,残差流维度为 \(d\)。我们将 \(\mathbf{h}_{t}^{(l)} \in \mathbb{R}^d\) 记为在层 \(l\) 输入处、标记位置 \(t\) 的残差流激活。我们将 \(\mathcal{M}(\mathbf{x})\) 记为对输入 \(\mathbf{x}\) 产生的贪心补全。对于聊天模型,我们遵循 Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\),将分析限制在指令模板后的标记;我们用 \(\mathcal{I}\) 表示它们的位置索引。 DiM 和 INLP 都是对比性的:给定 \(\mathcal{D} = \mathcal{D}^{+} \cup \mathcal{D}^{-}\),其中 \(\mathcal{D}^{+}\) 包含正类指令,\(\mathcal{D}^{-}\) 包含对比指令,则有 \[\displaystyle\mathbf{H}^{+,(l)} = \{\mathbf{h}_{t}^{(l)}(\mathbf{x}) \mid \mathbf{x} \in \mathcal{D}^{+},\, t \in \mathcal{I}\},\] \[\displaystyle\mathbf{H}^{-,(l)} = \{\mathbf{h}_{t}^{(l)}(\mathbf{x}) \mid \mathbf{x} \in \mathcal{D}^{-},\, t \in \mathcal{I}\}.\] 在无歧义时,我们省略层索引。 ### 3.2 均值差异法 (DiM) 在层 \(l\) 的 DiM 引导向量是类别均值激活之差(Marks and Tegmark, 2024 (https://arxiv.org/html/2606.13720#bib.bib14)): \[\mathbf{w}_{\text{DiM}}^{(l)} = \frac{1}{|\mathbf{H}^{+,(l)}|} \sum_{\mathbf{h} \in \mathbf{H}^{+,(l)}} \mathbf{h} \;-\; \frac{1}{|\mathbf{H}^{-,(l)}|} \sum_{\mathbf{h} \in \mathbf{H}^{-,(l)}} \mathbf{h},\] 其单位范数对应量为 \(\hat{\mathbf{w}}_{\text{DiM}}^{(l)}\)。遵循 Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\),我们在两种互补干预中使用 \(\mathbf{w}_{\text{DiM}}^{(l)}\)。 ##### 激活加法 (ActAdd)。 为诱发目标行为,我们将引导向量添加到其被提取的层的残差流中,作用于每个标记位置;为抑制该行为,则减去: \[\mathbf{h}^{(l)\prime} \leftarrow \mathbf{h}^{(l)} \pm \mathbf{w}_{\text{DiM}}^{(l)}.\] ##### 方向消融。 为擦除该行为,我们将每个残差流激活(作用于每一层、每一标记位置)投影到与 \(\hat{\mathbf{w}}_{\text{DiM}}^{(l)}\) 正交的超平面上: \[\mathbf{h}^{(l)\prime} \leftarrow \mathbf{h}^{(l)} - \hat{\mathbf{w}}_{\text{DiM}}^{(l)}\,\hat{\mathbf{w}}_{\text{DiM}}^{(l)\top}\,\mathbf{h}^{(l)}.\] ### 3.3 迭代零空间投影 (INLP) INLP(Ravfogelet al\.,2020 (https://arxiv.org/html/2606.13720#bib.bib6))检索到一个行空间投影器 \(\mathbf{P}_{R}\) 及其正交补 \(\mathbf{P}_{N} = \mathbb{I} - \mathbf{P}_{R}\)。在第 \(i\) 次迭代中,一个线性分类器 \(W_i \in \mathbb{R}^{1 \times d}\) 基于当前激活进行训练以预测类别标签;其单位范数权重 \(\hat{\mathbf{w}}_i\) 定义了一个秩一投影器 \(\mathbf{P}_{R}^{(i)} = \hat{\mathbf{w}}_i \hat{\mathbf{w}}_i^{\top}\)。然后将激活投影到 \(W_i\) 的零空间上,并训练下一个分类器。当没有线性分类器能在保留集上达到超越随机水平的准确率时,该过程停止,得到 \(n\) 个正交方向 \(\{\hat{\mathbf{w}}_1, \dots, \hat{\mathbf{w}}_n\}\) 和 \[\mathbf{P}_{R} = \sum_{i=1}^{n} \hat{\mathbf{w}}_i \hat{\mathbf{w}}_i^{\top}, \qquad \mathbf{P}_{N} = \mathbb{I} - \mathbf{P}_{R}.\] 将求和限制在前 \(k \le n\) 个分类器上,得到部分行空间投影器 \(\mathbf{P}_{R}^{(\le k)}\) 和相应的部分零空间投影器 \(\mathbf{P}_{N}^{(\le k)}\),这提供了一种控制擦除子空间大小的方法。我们利用 \(\mathbf{P}_{N}^{(\le k)}\) 构建以下干预。 ##### 零空间投影(擦除,\(\alpha = 1\))。 直接应用 \(\mathbf{P}_{N}\): \[\mathbf{h}^{(l)\prime} \leftarrow \mathbf{P}_{N}\,\mathbf{h}^{(l)}.\] ##### 反事实翻转(\(\alpha = 2\))。 遵循 Hao and Linzen (2023 (https://arxiv.org/html/2606.13720#bib.bib15)),定义 \[\mathbf{P}_{\alpha} = \alpha\,\mathbf{P}_{N} + (1-\alpha)\,\mathbb{I},\] 并应用 \(\mathbf{h}^{(l)\prime} \leftarrow \mathbf{P}_{\alpha} \mathbf{h}^{(l)}\)。当 \(\alpha=0\) 时,激活不变;\(\alpha=1\) 时,恢复公式 (7) (https://arxiv.org/html/2606.13720#S3.E7);\(\alpha=2\) 时,将 \(\mathbf{h}^{(l)}\) 反射穿过零空间,产生一个翻转概念同时保留正交分量的反事实。 ### 3.4 以拒绝作为案例研究 我们将通用对比集实例化为 \(\mathcal{D}^{+} = \mathcal{D}_{\text{harmful}}\) 和 \(\mathcal{D}^{-} = \mathcal{D}_{\text{harmless}}\),模仿 Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\)。此后,\(\mathbf{H}^{+}\) 和 \(\mathbf{H}^{-}\) 表示相应的对比激活。我们关注拒绝行为,因为它允许与先前工作在相同基元和相同数据集上进行直接比较;将比较扩展到其他概念则留待未来工作。 ### 3.5 选择层和标记位置 向量 \(\mathbf{w}_{\text{DiM}}\) 和 \(\mathbf{P}_{N}\) 依赖于 \((l, t)\) 的选择,其中 \(t \in \mathcal{I}\)。我们遵循 Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\) 的选择策略:候选方案根据一个综合得分进行排序,该得分奖励对有害提示的抑制、对无害提示的诱导,并惩罚相对于未干预模型的最终对数分布(通过 KL 散度测量)的偏移。对于 INLP,我们额外要求第一个 INLP 分类器达到最低验证准确率。我们偏离 Arditiet al\.\(202

相似文章

超越单一方向:思维链破坏简单的拒绝引导

arXiv cs.AI

这篇论文研究了大型推理模型中的思维链推理如何使基于激活的拒绝行为控制变得复杂。在DeepSeek-R1-Distill-LLaMA-8B上的实验表明,拒绝行为同时编码在残差流激活和思维链痕迹中,使得模型对激活层面的干预更加鲁棒,但同时也暴露了思维链作为另一个攻击面。

专家感知的拒绝引导

arXiv cs.CL

本文将拒绝引导(基于激活的越狱方法)扩展至混合专家(MoE)大语言模型,发现 MoE 的路由模式并不会阻碍引导效果,并提出了专家感知方法,可基于单个专家的输出来抑制拒绝行为。