超越单一方向的拒绝：Diff-in-Means与INLP的初步比较

arXiv cs.AI 2026/06/15 04:00 论文

safety refusal activation-steering diff-in-means inlp alignment

摘要

比较了Diff-in-Means和迭代零空间投影（INLP）方法在安全微调聊天模型中引导拒绝行为的效果，发现INLP反事实翻转在抑制拒绝方面与DiM方向消融相当，同时提供了更多可调性的干预手段。

arXiv:2606.13720v1 公告类型：新提交摘要：Arditi等人（2024）已表明，在安全微调聊天模型中，拒绝行为由残差流中的单一线性方向所介导，该方向可通过有害与无害激活的均值差（DiM）恢复。我们在五个开放权重聊天模型上，将基于DiM的干预（激活添加和方向消融）与源自迭代零空间投影（INLP）的两种干预（零空间投影和反事实翻转）进行比较，探究INLP在引导拒绝方面能否与DiM匹敌，以及其更丰富的参数化是否能产生更可调的干预措施。INLP反事实翻转在抑制拒绝上与DiM方向消融具有竞争力，而零空间投影则始终较弱。将INLP限制在提取子空间的主要方向，可以在接近基线的困惑度下保留大部分抑制效果，从而提供可调能力。从几何角度看，两种INLP干预落在激活空间中性质不同的区域：零空间投影将变换后的激活压缩在有害簇与无害簇\emph{之间}，而反事实翻转则将它们移动到相反簇中，这表明模型对概念缺失的编码与其对立面不同——这是一个有趣的区别，值得在未来的工作中进一步研究。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:08

# 均值差异法与INLP的初步比较  来源：https://arxiv.org/html/2606.13720 ## 超越单一方向的拒绝机制：均值差异法与INLP的初步比较  Alfio Ferrara 计算机科学系，米兰大学  \{elisabetta\.rocchetti, alfio\.ferrara\}@unimi\.it 通讯作者：elisabetta\.rocchetti@unimi\.it (https://arxiv.org/html/2606.13720v1/mailto:[email protected]) ###### 摘要  Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\) 已证明，在安全微调聊天模型中，拒绝行为由残差流中的单一线性方向所介导，该方向可通过有害和无害激活的均值差异 (DiM) 恢复。我们将基于 DiM 的干预（激活加法和方向消融）与两种源于迭代零空间投影 (INLP) 的干预——零空间投影和反事实翻转——在五个开放权重聊天模型上进行比较，探究 INLP 是否能匹配 DiM 在引导拒绝方面的效果，以及其更丰富的参数化是否能产生更可调节的干预。INLP 反事实翻转在抑制拒绝方面可与 DiM 方向消融相媲美，而零空间投影则始终较弱。将 INLP 限制在所提取子空间的主导方向上，可以在接近基线的困惑度下保留大部分抑制效果，从而提供一种可调节的能力。在几何上，两种 INLP 干预会落在激活空间中性质不同的区域：零空间投影将变换后的激活压缩到有害与无害聚类**之间**，而反事实翻转则将其移动到相反的聚类中，这表明模型对概念缺失的编码方式与其对立面不同——这是一个有趣的区别，应在未来工作中进一步研究¹¹。 ¹¹代码见：https://anonymous.4open.science/r/refusal_direction-5652/README.md。 超越单一方向的拒绝机制：均值差异法与INLP的初步比较 Elisabetta Rocchetti 和 Alfio Ferrara 计算机科学系，米兰大学 \{elisabetta\.rocchetti, alfio\.ferrara\}@unimi\.it 通讯作者：elisabetta\.rocchetti@unimi\.it (https://arxiv.org/html/2606.13720v1/mailto:[email protected]) ## 1 引言 安全微调聊天模型倾向于拒绝有害指令，而遵从无害指令。Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\) 已证明，这种行为由残差流中的单一线性方向所介导，该方向可通过平均有害和无害提示激活之间的差异来恢复。将此方向添加到残差流中，会引发对无害提示的拒绝；投影掉此方向，则会抑制对有害提示的拒绝。均值差异 (DiM) 构建方法因其简洁性而引人注目，最近的评估证实，在与对齐相关的任务上，DiM 与更复杂的提取方法相比具有竞争力甚至更强（Wuet al\.,2025 (https://arxiv.org/html/2606.13720#bib.bib10); Im and Li, 2026 (https://arxiv.org/html/2606.13720#bib.bib3)）。一个自然的问题是，其他监督基元能否恢复 DiM 无法捕捉到的**不同**内容。我们关注迭代零空间投影（INLP; Ravfogelet al\.,2020 (https://arxiv.org/html/2606.13720#bib.bib6)），这是一种概念擦除方法，它作用于维数 \(k\) 可调的子**空间**而非单一方向，并通过参数化投影 \(\mathbf{P}_{\alpha}\) 支持连续的干预谱：\(\alpha=1\) 擦除概念（零空间投影），而 \(\alpha=2\) 则将激活反射穿过零空间，产生一个反事实表征，在翻转概念的同时保留正交信息（Hao and Linzen, 2023 (https://arxiv.org/html/2606.13720#bib.bib15)）。据我们所知，基于 INLP 的干预尚未与 DiM 进行系统性基准测试——特别是，AxBench 评估（Wuet al\.,2025 (https://arxiv.org/html/2606.13720#bib.bib10)）考虑了 DiffMean、PCA、LAT、探针和监督引导向量，但未包含 INLP。我们着手比较基于 DiM 和基于 INLP 的干预在拒绝任务上的表现，并提出两个关于 INLP 可能表现如何的初步假设： - • **H1（有效性）**：基于 INLP 的干预可以匹配 DiM 在引导拒绝方面的效果。两种方法都依赖于线性表征假设（Parket al\.,2023 (https://arxiv.org/html/2606.13720#bib.bib5)），并且都从标记的对比激活中估计与拒绝相关的方向，因此尽管其几何构造不同，我们预期它们有可比的行为。 - • **H2（可调节性）**：INLP 更丰富的参数化——一个维数 \(k\) 可调的子空间，以及一个连续的算子族 \(\mathbf{P}_{\alpha}\)——可以支持单方向 DiM 无法实现的行为干预，特别是通过 \(k\) 实现的“能力-效果”可调节权衡，以及通过 \(\alpha\) 实现的定性不同的操作。 为了探究这些假设，我们评估了四种干预——DiM 方向消融、DiM 激活加法、INLP 零空间投影（\(\alpha=1\)）和 INLP 反事实翻转（\(\alpha=2\)）——应用于五个开放权重、安全微调的聊天模型。我们沿着有效性轴（对有害提示的拒绝抑制和对无害提示的拒绝注入）和性能轴（困惑度、MMLU 和 ARC）衡量每种干预。为了理解每种干预如何重塑残差流，我们还检查了 PCA 空间中的激活几何结构，并使用 LLM 评判器进行了结构化补全分析。此项工作是初步的；我们在第6节 (https://arxiv.org/html/2606.13720#S6) 讨论未解决的问题和局限性。 ## 2 相关工作 ##### 用于提取引导向量的监督方法。 在线性表征假设下（Parket al\.,2023 (https://arxiv.org/html/2606.13720#bib.bib5)），概念被编码为激活空间中的方向，并且这些方向可用于引导模型行为。一系列监督技术可恢复此类向量。Subramaniet al\.\(2022 (https://arxiv.org/html/2606.13720#bib.bib8)\) 针对冻结的解码器优化每个句子的潜在向量。激活加法（Turneret al\.,2024 (https://arxiv.org/html/2606.13720#bib.bib12)）和对比激活加法（Rimskyet al\.,2024 (https://arxiv.org/html/2606.13720#bib.bib7)）分别使用单个对比对和平均对比差异——后者与 Marks and Tegmark (2024 (https://arxiv.org/html/2606.13720#bib.bib14)) 和 Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\) 用于分离拒绝方向的“均值差异”估计量相同。线性人工断层扫描（Zouet al\.,2025 (https://arxiv.org/html/2606.13720#bib.bib11)）提取对比激活的主成分。推理时干预（Liet al\.,2023 (https://arxiv.org/html/2606.13720#bib.bib4)）使用选定注意力头上的探针权重。 ##### 概念擦除方法。 一个独立但密切相关的技术家族针对的是**擦除**概念而非放大概念的逆问题。INLP（Ravfogelet al\.,2020 (https://arxiv.org/html/2606.13720#bib.bib6)）反复训练线性分类器并将其投影到它们的零空间上，恢复一系列相互正交的分类器方向，这些方向张成一个概念子空间。LEACE（Belroseet al\.,2023 (https://arxiv.org/html/2606.13720#bib.bib2)）提供了一种闭合形式的、微创的线性擦除方法，可击败所有线性分类器。Hao and Linzen (2023 (https://arxiv.org/html/2606.13720#bib.bib15)) 使用 INLP 派生的子空间，通过将激活反射穿过它来**翻转**概念，通过干预主谓数子空间来逆转 BERT 的动词变形。INLP 与上述单方向方法在两个方面有本质区别：它作用于维数 \(k\) 可调的子空间，且相同提取的基支持从概念移除到反事实翻转的连续干预谱——当负类对应于真正的对立面（例如，无害 vs. 有害）而非概念缺失时，这是有意义的。 ##### 简单方法常常是最强的基线。 Wuet al\.\(2025 (https://arxiv.org/html/2606.13720#bib.bib10)\) 报告称，DiM 在概念检测上明显优于 LAT、PCA 和稀疏自编码器，而在引导方面，所有引导向量方法都落后于提示和微调基线。Im and Li (2026 (https://arxiv.org/html/2606.13720#bib.bib3)) 将 CAA、RepE 和 ITI 统一在对比对目标下，证明均值差异是最优引导向量，并确认 PCA 和分类器变体倾向于恢复方向或幅度不正确的方向。Belrose (2023 (https://arxiv.org/html/2606.13720#bib.bib13)) 提供了一个补充性的最坏情况论证，即沿 DiM 方向的干预在相关意义上是逐例最优的。以上工作均未将基于 INLP 的干预与 DiM 进行引导方面的基准测试，这正是我们开始填补的空白。 ## 3 方法 ### 3.1 符号表示 我们考虑一个仅有解码器的 Transformer（Vaswaniet al\.,2017 (https://arxiv.org/html/2606.13720#bib.bib34); Brownet al\.,2020 (https://arxiv.org/html/2606.13720#bib.bib35)），有 \(L\) 个块，残差流维度为 \(d\)。我们将 \(\mathbf{h}_{t}^{(l)} \in \mathbb{R}^d\) 记为在层 \(l\) 输入处、标记位置 \(t\) 的残差流激活。我们将 \(\mathcal{M}(\mathbf{x})\) 记为对输入 \(\mathbf{x}\) 产生的贪心补全。对于聊天模型，我们遵循 Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\)，将分析限制在指令模板后的标记；我们用 \(\mathcal{I}\) 表示它们的位置索引。 DiM 和 INLP 都是对比性的：给定 \(\mathcal{D} = \mathcal{D}^{+} \cup \mathcal{D}^{-}\)，其中 \(\mathcal{D}^{+}\) 包含正类指令，\(\mathcal{D}^{-}\) 包含对比指令，则有 \[\displaystyle\mathbf{H}^{+,(l)} = \{\mathbf{h}_{t}^{(l)}(\mathbf{x}) \mid \mathbf{x} \in \mathcal{D}^{+},\, t \in \mathcal{I}\},\] \[\displaystyle\mathbf{H}^{-,(l)} = \{\mathbf{h}_{t}^{(l)}(\mathbf{x}) \mid \mathbf{x} \in \mathcal{D}^{-},\, t \in \mathcal{I}\}.\] 在无歧义时，我们省略层索引。 ### 3.2 均值差异法 (DiM) 在层 \(l\) 的 DiM 引导向量是类别均值激活之差（Marks and Tegmark, 2024 (https://arxiv.org/html/2606.13720#bib.bib14)）： \[\mathbf{w}_{\text{DiM}}^{(l)} = \frac{1}{|\mathbf{H}^{+,(l)}|} \sum_{\mathbf{h} \in \mathbf{H}^{+,(l)}} \mathbf{h} \;-\; \frac{1}{|\mathbf{H}^{-,(l)}|} \sum_{\mathbf{h} \in \mathbf{H}^{-,(l)}} \mathbf{h},\] 其单位范数对应量为 \(\hat{\mathbf{w}}_{\text{DiM}}^{(l)}\)。遵循 Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\)，我们在两种互补干预中使用 \(\mathbf{w}_{\text{DiM}}^{(l)}\)。 ##### 激活加法 (ActAdd)。 为诱发目标行为，我们将引导向量添加到其被提取的层的残差流中，作用于每个标记位置；为抑制该行为，则减去： \[\mathbf{h}^{(l)\prime} \leftarrow \mathbf{h}^{(l)} \pm \mathbf{w}_{\text{DiM}}^{(l)}.\] ##### 方向消融。 为擦除该行为，我们将每个残差流激活（作用于每一层、每一标记位置）投影到与 \(\hat{\mathbf{w}}_{\text{DiM}}^{(l)}\) 正交的超平面上： \[\mathbf{h}^{(l)\prime} \leftarrow \mathbf{h}^{(l)} - \hat{\mathbf{w}}_{\text{DiM}}^{(l)}\,\hat{\mathbf{w}}_{\text{DiM}}^{(l)\top}\,\mathbf{h}^{(l)}.\] ### 3.3 迭代零空间投影 (INLP) INLP（Ravfogelet al\.,2020 (https://arxiv.org/html/2606.13720#bib.bib6)）检索到一个行空间投影器 \(\mathbf{P}_{R}\) 及其正交补 \(\mathbf{P}_{N} = \mathbb{I} - \mathbf{P}_{R}\)。在第 \(i\) 次迭代中，一个线性分类器 \(W_i \in \mathbb{R}^{1 \times d}\) 基于当前激活进行训练以预测类别标签；其单位范数权重 \(\hat{\mathbf{w}}_i\) 定义了一个秩一投影器 \(\mathbf{P}_{R}^{(i)} = \hat{\mathbf{w}}_i \hat{\mathbf{w}}_i^{\top}\)。然后将激活投影到 \(W_i\) 的零空间上，并训练下一个分类器。当没有线性分类器能在保留集上达到超越随机水平的准确率时，该过程停止，得到 \(n\) 个正交方向 \(\{\hat{\mathbf{w}}_1, \dots, \hat{\mathbf{w}}_n\}\) 和 \[\mathbf{P}_{R} = \sum_{i=1}^{n} \hat{\mathbf{w}}_i \hat{\mathbf{w}}_i^{\top}, \qquad \mathbf{P}_{N} = \mathbb{I} - \mathbf{P}_{R}.\] 将求和限制在前 \(k \le n\) 个分类器上，得到部分行空间投影器 \(\mathbf{P}_{R}^{(\le k)}\) 和相应的部分零空间投影器 \(\mathbf{P}_{N}^{(\le k)}\)，这提供了一种控制擦除子空间大小的方法。我们利用 \(\mathbf{P}_{N}^{(\le k)}\) 构建以下干预。 ##### 零空间投影（擦除，\(\alpha = 1\)）。 直接应用 \(\mathbf{P}_{N}\)： \[\mathbf{h}^{(l)\prime} \leftarrow \mathbf{P}_{N}\,\mathbf{h}^{(l)}.\] ##### 反事实翻转（\(\alpha = 2\)）。 遵循 Hao and Linzen (2023 (https://arxiv.org/html/2606.13720#bib.bib15))，定义 \[\mathbf{P}_{\alpha} = \alpha\,\mathbf{P}_{N} + (1-\alpha)\,\mathbb{I},\] 并应用 \(\mathbf{h}^{(l)\prime} \leftarrow \mathbf{P}_{\alpha} \mathbf{h}^{(l)}\)。当 \(\alpha=0\) 时，激活不变；\(\alpha=1\) 时，恢复公式 (7) (https://arxiv.org/html/2606.13720#S3.E7)；\(\alpha=2\) 时，将 \(\mathbf{h}^{(l)}\) 反射穿过零空间，产生一个翻转概念同时保留正交分量的反事实。 ### 3.4 以拒绝作为案例研究 我们将通用对比集实例化为 \(\mathcal{D}^{+} = \mathcal{D}_{\text{harmful}}\) 和 \(\mathcal{D}^{-} = \mathcal{D}_{\text{harmless}}\)，模仿 Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\)。此后，\(\mathbf{H}^{+}\) 和 \(\mathbf{H}^{-}\) 表示相应的对比激活。我们关注拒绝行为，因为它允许与先前工作在相同基元和相同数据集上进行直接比较；将比较扩展到其他概念则留待未来工作。 ### 3.5 选择层和标记位置 向量 \(\mathbf{w}_{\text{DiM}}\) 和 \(\mathbf{P}_{N}\) 依赖于 \((l, t)\) 的选择，其中 \(t \in \mathcal{I}\)。我们遵循 Arditiet al\.\(2024 (https://arxiv.org/html/2606.13720#bib.bib1)\) 的选择策略：候选方案根据一个综合得分进行排序，该得分奖励对有害提示的抑制、对无害提示的诱导，并惩罚相对于未干预模型的最终对数分布（通过 KL 散度测量）的偏移。对于 INLP，我们额外要求第一个 INLP 分类器达到最低验证准确率。我们偏离 Arditiet al\.\(202

超越单一方向的拒绝：Diff-in-Means与INLP的初步比较

相似文章

超越单一方向：思维链破坏简单的拒绝引导

不破坏的引导：基于机制的离散扩散语言模型干预

专家感知的拒绝引导

拒绝层是否会掩盖 MoE 模型中方言条件化的安全失效 [d]

PsychoSafe：在大型语言模型中引发基于心理学的拒绝响应

提交意见反馈