保持专注:通过键正交投影实现激活转向
摘要
本文介绍了通过键正交投影进行转向(SKOP)方法,该方法通过防止注意力重路由来控制大语言模型(LLM)的行为,从而在保持转向效果的同时降低效用下降。
arXiv:2605.06342v1 公告类型:新论文
摘要:激活转向通过干预内部表示来控制大语言模型(LLM)的行为以趋向目标行为,但往往会降低推理和检索性能。我们认为,造成这种权衡的主要原因在于注意力重路由:转向向量会改变查询-键(query-key)匹配关系,使注意力从上下文重要的 token 转移到信息量较少的 token 上。为解决这一问题,我们提出了通过键正交投影进行转向(SKOP),这是一种约束有害注意力重路由且不消除转向效果的转向方法。SKOP 通过在模型用于推理和检索的少量关键 focus token 上保持注意力模式,同时允许在非关键的尾部 token 之间进行重分配来实现这一目标。在多个转向基准测试中,我们表明 SKOP 实现了最佳的转向-效用联合权衡,将效用下降降低了 5-7 倍,同时保留了超过 95% 的普通转向效果。我们的结果进一步表明,在普通转向方法无效的长上下文检索场景中,SKOP 可以通过避免注意力重路由来维持稳健的性能。
查看缓存全文
缓存时间: 2026/05/08 07:51
# 别失去焦点:通过键正交投影实现激活导向
来源: https://arxiv.org/html/2605.06342
Haoyan Luo† Mateo Espinosa Zarlenga‡ Mateja Jamnik†
†剑桥大学 ‡牛津大学
###### 摘要
激活导向(Activation steering)通过干预内部表征来控制大语言模型(LLM)的行为,使其趋向目标行为,但这往往会损害推理和检索性能。我们认为,造成这种权衡的一个主要原因是**注意力重定向(attention rerouting)**:导向向量改变了查询-键(query-key)匹配,导致注意力从上下文重要的 token 转移到信息量较少的 token 上。为了解决这个问题,我们提出了**基于键正交投影的导向(Steering via Key-Orthogonal Projections, SKOP)**,这是一种约束有害注意力重定向而不消除导向有效性的方法。SKOP 通过保留模型依赖的小量**焦点 token(focus tokens)**的注意力模式来实现这一目标,这些 token 用于推理和检索,同时允许在非关键的**尾部 token(tail tokens)**之间重新分配注意力。在多个导向基准测试中,我们表明 SKOP 实现了最佳的导向-效用权衡,将效用退化降低了 5-7 倍,同时保留了超过 95% 的原始导向有效性。我们的结果进一步表明,在原始导向方法无效的长上下文检索场景中,SKOP 可以通过避免注意力重定向来保持稳健的性能。
## 1 引言
 **图1:由于激活导向导致的注意力重定向,这是导向有效性与效用保存之间权衡的关键贡献因素。**
激活导向提供了一种轻量级的推理时机制,通过干预大型语言模型(LLM)的内部表征来控制其行为,从而避免昂贵的重新训练 [37, 20, 29, 34]。最近,由于其能够引发目标行为(如诚实性 [18] 和有害内容拒绝 [23, 17, 32])而在开放生成任务中成为一种吸引人的行为控制机制 [22, 39, 5, 42]。然而,尽管前景广阔,一个基本的实际挑战仍未得到解决:**导向有效性(steering efficacy)**与**效用保存(utility preservation)**之间的权衡。具体来说,随着导向强度的增加或选择性应用的减少,引发目标行为可能会以牺牲无关能力(如推理和检索)的性能(即**效用**)为代价 [35, 37]。
最近的工作通过改进应用导向的**时机**和**位置**,在解决这一权衡方面取得了进展。例如,引入了条件输入导向,仅在相关上下文中激活导向以减轻过度拒绝 [17, 32]。对于开放生成,虽然许多方法直接在模型的残差流中进行导向 [29, 44, 22, 40],但最近的研究表明,注意力空间导向可以非常有效 [18, 36, 39],并且由于对残差流的侵入性较小,可以更好地保存效用,例如查询空间导向 [36]。然而,目前尚不清楚注意力空间导向**如何**改变注意力模式,以及哪些变化改善了这种权衡。
在这项工作中,我们认为这种权衡是由**注意力重定向**驱动的(图1):导向改变了注意力查询与键的匹配方式,从而改变了被注意到的 token。我们关注查询空间导向有两个原因:(i) 由于行为概念在查询空间中的高可分离性,它已成为一种特别有效的导向范式 [36, 39];(ii) 如我们在第3节所示,它将重定向效应隔离为单个可校正项。在这种设置下,我们观察到注意力从模型依赖的小量**焦点集(focus set)** token(用于正确推理和检索,图2(A))转移到大量信息量较少的**尾部集(tail set)** token,这可以通过 top-set 注意力质量保留率来衡量(图2(B))。
我们表明,这种重定向是因为查询空间导向改变了决定注意力权重的**相对**查询-键分数(公式7)。虽然可以通过强制执行精确的注意力不变性来防止重定向,例如通过适应为残差导向开发的零空间约束 [32],但这会完全抑制导向有效性(图2(C))。因此,我们观察到一个关键的张力:虽然有效的导向需要修改相对注意力分数,但效用保存要求重要 token 的注意力模式保持不受干扰。
这激发了我们的方法:而不是消除注意力重定向,我们有选择地约束它。为此,我们引入了**基于键正交投影的导向(SKOP)**,给定查询空间导向向量,它仅去除那些强烈将注意力从焦点集转移到尾部集的成分,同时保持其他导向效应不变。具体而言,SKOP 比较头在效用任务上强烈注意的 token 与弱注意的 token,并利用它们键表示的差异来识别可能导致有害注意力转移的导向成分。然后,它仅去除这些成分,并选择性地将此校正应用于最易受此类转移影响的少量**风险头(risk heads)**,从而在保护模型效用的同时保留导向有效性。
我们进一步表明,这种机制能够在长上下文检索场景中实现稳健的激活导向,据我们所知,这是首次展示有效的长上下文激活导向。我们的主要贡献总结如下:
1. 我们识别出**注意力重定向**(导向引起的注意力从焦点 token 移开)是查询空间导向有效性与效用保存之间权衡背后的关键机制。
2. 我们提出了 SKOP,一种导向方法,抑制将注意力从焦点 token 移开的导向成分,在保留强导向有效性的同时保护模型效用。
3. 我们表明 SKOP 在多个基准测试中实现了最佳的导向-效用权衡,将效用退化降低了 5-7 倍,并实现了稳健的长上下文激活导向。
## 2 相关工作
**激活导向。** 激活导向通过修改潜在空间来诱导或抑制 LLM 中的特定行为 [2, 35, 34]。主流范式假设线性表示假设 [21, 24] 成立,并使用表示 LLM 潜在空间中方向的均值差向量来导向模型 [44]。这些**导向向量**通常是通过分析模型在获得概念“正面”和“负面”示例时最后一个 token 的表征来构建的 [18, 29]。导向向量也可以使用非线性估计 [27]、仿射变换 [31, 33] 或基于优化的技术 [42, 41] 构建。最近的工作表明,直接在注意力层上进行导向(例如,**查询空间导向** [36, 39])是一种有效且细粒度的控制机制,这是由于行为概念在查询和值空间中的可分离性 [36]。然而,目前尚不清楚激活导向如何与注意力模式本身相互作用。我们的工作填补了这一空白,通过识别注意力重定向作为查询空间导向的副作用,并表明这种重定向构成了观察到的导向-效用权衡的基础(第4节)。
**导向与效用的权衡。** 激活导向的一个持续挑战是导向有效性与通用模型能力(即效用)之间的权衡 [42]。虽然已经提出了缓解策略,如条件输入导向 [17, 32]、语义门控 [17]、目标头选择 [18] 和特征级分解 [3, 28],但它们作用于残差流,并且经常在狭窄的拒绝导向设置中进行研究 [17, 32]。因此,目前尚不清楚这些干预**如何**影响注意力模式,或者它们是否能在通用行为导向设置中同时提高导向有效性和保护效用。基于我们对注意力重定向的分析,我们提出了 SKOP,这是一种专为查询空间导向定制的缓解方法,改善了联合导向-效用权衡(第5节)。
## 3 预备知识
考虑一个具有 $L$ 层的仅解码器 Transformer,每层有 $H$ 个注意力头。这里,第 $l$ 层的残差流 $\mathbf{h}^{(l)} \in \mathbb{R}^{t \times d}$,其中 $t$ 是序列长度,$d$ 是 token 维度,定义为:
$$
\begin{align}
\mathbf{g}^{(l)} &= \mathbf{h}^{(l-1)} + \mathbf{a}^{(l)}\big(\text{LN}(\mathbf{h}^{(l-1)})\big), \\
\mathbf{h}^{(l)} &= \mathbf{g}^{(l)} + \text{MLP}^{(l)}\big(\text{LN}(\mathbf{g}^{(l)})\big),
\end{align}
$$
其中 $\text{LN}$ 是层归一化,$\mathbf{a}^{(l)}$ 是第 $l$ 层的多头注意力块。为简单起见,这里我们关注具有标准多头注意力 [38] 的 Transformer。不过,我们指出,下面的公式可以轻松适应现代 LLM 中使用的分组查询注意力 [1]。注意力块 $\mathbf{a}^{(l)}$ 由 $H$ 个注意力头 $\{ \mathbf{a}^{(l,h)} \}_{h=1}^H$ 组成,每个头由矩阵 $\mathbf{W}_q^{(l,h)}, \mathbf{W}_k^{(l,h)}, \mathbf{W}_v^{(l,h)}, \mathbf{W}_o^{(l,h)} \in \mathbb{R}^{d \times d'}$ 参数化,其中 $d' = d/H$ 是头维度。给定注意力输入 $\mathbf{z}^{(l)} := \text{LN}(\mathbf{h}^{(l-1)})$,查询、键和值为:
$$
\mathbf{Q}^{(l,h)} = \mathbf{z}^{(l)} \mathbf{W}_q^{(l,h)}, \quad \mathbf{K}^{(l,h)} = \mathbf{z}^{(l)} \mathbf{W}_k^{(l,h)}, \quad \mathbf{V}^{(l,h)} = \mathbf{z}^{(l)} \mathbf{W}_v^{(l,h)},
$$
注意力 logits 和输出为:
$$
\begin{align}
s_{ij}^{(l,h)} &= \langle \mathbf{q}_i^{(l,h)}, \mathbf{k}_j^{(l,h)} \rangle / \sqrt{d'}, \\
\mathbf{a}^{(l,h)}(\mathbf{z}^{(l)})_i &= \sum_{j=1}^t \alpha_{ij}^{(l,h)} \mathbf{v}_j^{(l,h)} \mathbf{W}_o^{(l,h)},
\end{align}
$$
其中 $\alpha_{ij}^{(l,h)} = \text{softmax}_j(s_{ij}^{(l,h)})$ 是注意力权重。
**查询空间导向。** 激活导向通过向 LLM 的潜在表征添加固定的**导向向量** $\mathbf{r}$ 来控制其行为 [29, 18, 44]。在这些方法中,**查询空间导向** [36] 脱颖而出,因为 (1) 它实现了强大的导向有效性 [36, 39],且 (2) 如下文推导所示,其对注意力 logits 的影响可以通过闭式项轻松捕捉。由于这些特性更便于研究强大的导向方法,我们将分析重点放在查询空间导向上。
给定查询空间导向向量 $\mathbf{r}_q^{(l,h)} \in \mathbb{R}^{d'}$——通常作为目标行为正面和负面示例之间查询激活的均值差获得 [29, 18, 36]——查询空间导向按如下方式修改查询:
$$
\mathbf{q}_i^{(l,h)} \leftarrow \mathbf{q}_i^{(l,h)} + \lambda \mathbf{r}_q^{(l,h)},
$$
其中 $\lambda \in \mathbb{R}$ 控制**导向强度**。将导向后的查询代入 logit 定义 $s_{ij}^{(l,h)} = \langle \mathbf{q}_i^{(l,h)}, \mathbf{k}_j^{(l,h)} \rangle / \sqrt{d'}$ 并展开内积,得到以下更新后的 logit:
$$
\tilde{s}_{ij}^{(l,h)} := \langle \mathbf{q}_i^{(l,h)} + \lambda \mathbf{r}_q^{(l,h)}, \mathbf{k}_j^{(l,h)} \rangle / \sqrt{d'} = s_{ij}^{(l,h)} + \underbrace{\lambda \langle \mathbf{r}_q^{(l,h)}, \mathbf{k}_j^{(l,h)} \rangle / \sqrt{d'}}_{\delta_{ij}^{(l,h)}}.
$$相似文章
提示-激活对偶性:通过注意力层干预改进激活引导
本文识别出KV缓存污染是对话中激活引导的一种失败模式,并提出了GCAD方法,该方法从提示贡献中提取引导信号,并应用词元级门控来改进长程连贯性,在多轮基准上取得了显著提升。
超越引导向量:用于推理时干预的基于流的激活引导
本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。
不破坏的引导:基于机制的离散扩散语言模型干预
本文介绍了一种新颖的自适应调度器,用于利用稀疏自编码器引导离散扩散语言模型,结果表明,基于特定属性提交时机进行针对性干预,比均匀方法能提升控制质量和强度。
MidSteer: 用于引导生成模型的最优仿射框架
介绍MidSteer,一个用于生成模型中概念引导的理论框架,通过为LLMs和视觉扩散模型中的概念引导、擦除和切换提供最优仿射变换,弥合了经验成功与理论理解之间的差距。
FineSteer: 大规模语言模型推理时细粒度控制的统一框架
FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。