超越引导向量:用于推理时干预的基于流的激活引导

arXiv cs.CL 论文

摘要

本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。

arXiv:2605.05892v1 公告类型:新文章 摘要:通过修改中间表示同时保持模型参数冻结,激活引导(Activation steering)已成为在推理时控制语言模型行为的一种有前景的替代方案。然而,AxBench 等大规模评估表明,现有的引导方法往往不如简单的上下文提示,且对未见概念的泛化能力较差。我们假设,这些局限性源于先前方法共有的未经验证的简化假设,这些假设通常将引导干预限制为固定的、单步的、与位置无关的变换。我们提出了 FLAS(基于流的激活引导),该方法学习一个通用的、概念条件化的速度场 $v_t(h,t,c)$,将未引导的激活传输到引导后的激活,而不依赖上述假设。在 AxBench 上,FLAS 是首个持续优于提示方法的学习型方法,在 Gemma-2-2B-IT 和 Gemma-2-9B-IT 上分别达到了 1.015 和 1.113 的保留集调和平均值,且无需针对特定概念进行微调。对所学流形的分析显示,其轨迹是弯曲的、多步的且随 token 变化的,这表明先前关于激活空间几何结构的假设可能并不完整。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:45

# 基于流的激活转向用于推理时干预
来源:https://arxiv.org/html/2605.05892
Zehao Jin* Ruixuan Deng* Junran Wang* Xinjie Shen Chao Zhang
佐治亚理工学院 {zjin350, rdeng62, jwang3668, xinjie, chaozhang}@gatech.edu

###### 摘要
激活转向(Activation steering)作为一种在推理时通过修改中间表示来控制语言模型行为的有前景的替代方案,同时保持模型参数冻结。然而,如 AxBench 这样的大规模评估表明,现有的转向方法往往不如简单的上下文提示(in-context prompting),且对未见概念泛化能力较差。我们假设这些局限性源于先前方法共有的、未经验证的简化假设,这些假设通常将转向干预限制为固定的、单步的、位置不变的变换。我们提出了 FLAS(基于流的激活转向,Flow-based Activation Steering),它学习了一个通用的、条件于概念的流速场 $v_\theta(h, t, c)$,将未转向的激活传输到转向的激活,而不依赖上述假设。在 AxBench 上,FLAS 是第一个一致性地优于提示的学习方法,在 Gemma-2-2B-IT 和 Gemma-2-9B-IT 上分别达到了 1.015 和 1.113 的留待调和均值(held-out harmonic means),且无需针对每个概念进行微调。对学习到的流的分析显示其具有弯曲的、多步的、随令牌变化的轨迹,这表明之前关于激活空间几何结构的假设可能是不完整的。我们的代码可在 https://github.com/flas-ai/FLAS 获取。

11脚注:同等贡献。

## 1 引言
大型语言模型(LLM)在各种任务中展现了强大的能力 [4, 10, 30],但可靠地控制其行为以符合人类偏好仍然是一个持久的挑战 [1]。现有的控制机制,如提示和微调,在鲁棒性、成本和副作用方面存在局限性 [1, 12, 13, 18]。激活转向作为一种互补的替代方案应运而生,它通过在推理时修改中间表示同时保持模型参数冻结,提供轻量级、可解释的控制,涵盖日益广泛的行为 [25, 3, 14, 8, 39] [9, 33, 43]。

尽管取得了这些成功,但 AxBench [36]——一个评估数千个自然语言转向概念的基准测试——揭示了现有转向方法的一致局限性。具体而言,简单的上下文提示优于所测试的转向方法,并且增加标量转向强度虽然能提高概念融合度,却单调地降低了指令遵循能力和流畅度。需要在开发集上针对每个概念调整强度的要求 [36] 限制了以往转向方法的实际应用。

我们假设这种性能差距源于大多数激活转向方法在设计时采用且未经严格验证的简化假设。虽然最近的大多数方法通过引入自适应变换放松了线性表示假设 [24, 23, 31] [37, 28, 40, 27, 21, 29],但其他假设仍然广泛存在(表1),通常将干预限制为在对比数据上为每个概念训练的单步、位置不变的变换。这些假设定义了每种方法的预设算子族,既限制了干预可能使用的信息,也限制了其对激活的作用方式。个别方法放松了其中一个或多个约束,同时保留其余约束。最近的基于流和常微分方程(ODE)的表述 [35, 15, 42] 通过允许多步、状态相关的轨迹来放宽单步约束,但它们仍然依赖对比数据和针对每个概念的特定训练。这些限制塑造了干预在实际中的表现,并可能限制概念融合与指令遵循之间可实现的权衡。

为了解决这些限制,我们提出通过引入 FLAS(基于流的激活转向)直接从数据中学习一个更具表达力的转向算子。FLAS 用学习到的、时间条件的流速场 $v_\theta(h, t, c)$ 替换固定的单步干预,该流速场通过 N 步欧拉积分将未转向的激活 $h$ 传输到转向的激活 $h' = \varphi_T(h)$,条件于自然语言概念描述 $c$。由于速度取决于当前的激活状态,因此产生的干预会随着激活的演变而自适应调整,并且在多步积分下,可以沿着激活空间中的曲线轨迹移动。在每个令牌位置独立评估速度进一步允许位移在序列中变化。该方法仅在正样本上使用标准的语言建模目标进行训练,不需要对比对,并采用流动时间 $T$ 作为连续积分范围,从而将干预强度与方向解耦。

我们的贡献如下:

1. 我们提出了 FLAS(基于流的激活转向),这是一个条件于概念的流速场,通过 N 步欧拉积分实现,支持仅使用正样本训练的自适应、多步、位置敏感的转向。该流公式将许多单步方法作为 $N=1$ 和固定 $T$ 的特殊情况恢复。
2. FLAS 是第一个在 AxBench [36] 上一致性地优于提示的学习转向方法,在留待数据集上的调和均值(HMean)达到 1.015/1.113(Gemma-2-2B/9B-IT),相比之下提示为 0.762/1.091,HyperSteer [29] 为 0.608/0.934,且参数量仅为后者的 <1/26。性能在 $T \in [0.5, 4.0]$ 范围内保持稳定,无需针对每个概念进行微调,并在 16k 规模下泛化到留待概念,呈现单调扩展且无明显饱和。
3. 学习到的流速场作为激活空间的分析探针,揭示了弯曲的、位置依赖的、多步结构。我们的方法提供了实证证据,表明有效的转向需要非线性且位置敏感的干预,这表明之前关于激活空间几何结构的假设可能是不完整的。

> 图1:FLAS 模型架构概览。流速场 $v_\theta(h, t, c)$ 传输冻结基础语言模型第 $l$ 层的激活。冻结的概念编码器 $\phi$ 产生概念表示,通过交叉注意力被单个 FlowBlock 消耗。流通过 N 步欧拉积分进行集成,在训练和推理之间共享,生成转向激活 $h' = \varphi_T(h)$。整个基础语言模型(base LM)保持冻结;仅训练 FlowBlock 参数。

## 2 相关工作
表1 从五个结构维度将 FLAS 置于激活转向方法的全景中。

**表1:激活转向方法的结构比较。**
*   **自适应**:取决于当前 $h$。
*   **多步**:迭代积分。
*   **每令牌**:使用位置间上下文。
*   **零样本**:无需针对每个概念重新训练。
*   **训练数据**:“仅正样本” = 仅概念对齐的响应,“正+负” = 额外需要配对的负样本。
*   ⋆ 依赖预训练的稀疏自编码器进行特征提取。

#### 线性激活转向
Activation Addition [33] 和 CAA [23] 各自提取或优化一个固定的转向方向,并在选定的层添加缩放副本。最近的工作通过低秩干预 [37] 和交叉注意力超网络 [29] 等学习机制计算位移,但在推理时仍产生单一位移,且据报道在 AxBench 上均未一致性地超越提示。

#### 并行的非线性和基于流的转向
Activation Transport [28]、Curveball Steering [27]、Spherical Steering [40] 和 Householder Pseudo-Rotation [26] 引入了从仿射映射到范数保持旋转的非线性单步干预,需要配对的源-目标数据。K-Steering [21]、TruthFlow [35]、FlowSteer [15] 和 ODESteer [42] 采用了多步连续动力学表述,但每个都针对单一属性,并需要特定任务的配对数据。FLAS 将条件于概念的流速场与仅使用正样本端到端语言模型损失训练的零样本泛化相结合。

#### 流匹配与表示几何
我们的流速场参数化借鉴了流匹配 [16, 32, 17] 及其在流形 [2] 和隐空间 [5] 上的扩展。在流匹配中,噪声被传输到数据,而在 FLAS 中,未转向的激活被传输到转向的激活,其目标是下游语言建模目标,而非流匹配回归目标。LLM 表示的流形观点 [20, 34, 19, 7, 41] 将隐藏状态视为位于低维子流形上,我们在第6.1节和第6.2节中的轨迹分析具体展示了学习到的干预如何在这样的子流形上追踪。

## 3 方法

### 3.1 基于流的转向
固定一个具有 $L$ 层和隐藏宽度 $d$ 的预训练语言模型。在选定的层 $l$,前向传播产生激活 $h \in \mathbb{R}^{n \times d}$,其中 $n$ 是序列长度。给定一个自然语言概念描述 $c$(例如,指定目标行为的短短语),我们希望用转向版本 $h'$ 替换 $h$,以便后续层生成的文本表现出该概念,同时保持指令遵循和流畅度。

我们将 $h$ 到 $h'$ 的映射实现为学习到的、条件于概念的流。令 $\{\varphi_t\}_{t \in [0, T]}$ 为由流速场 $v_\theta$ 生成的映射族 $\varphi_t: \mathbb{R}^{n \times d} \to \mathbb{R}^{n \times d}$,由常微分方程定义:
$$
\frac{d}{dt} \varphi_t(h) = v_\theta(\varphi_t(h), t, c), \quad (1)
$$
初始条件为 $\varphi_0(h) = h$。转向激活通过从 0 到 $T$ 积分流速场获得:
$$
h' = \varphi_T(h) = h + \int_0^T v_\theta(\varphi_t(h), t, c) dt. \quad (2)
$$
在实践中,我们使用 $N$ 步前向欧拉方法近似该积分:
$$
h_{k+1} = h_k + \frac{T}{N} v_\theta(h_k, \frac{kT}{N}, c), \quad (3)
$$
其中 $k=0, \dots, N-1$,且 $h_0 = h$。得到的 $h_N$ 作为 $h' = \varphi_T(h)$ 的数值近似,并代替 $h$ 传递到层 $l+1$。

$v_\theta$ 的三个特性共同将此表述与之前的转向方法区分开来。首先,映射 $\varphi_t$ 依赖于初始状态 $h$,因此流适应不同的激活。其次,时变流速场可以在积分路径的每一步规定不同的方向,产生曲线轨迹。第三,$v_\theta$ 按令牌位置计算,因此转向轨迹随令牌变化。综上所述,这些特性使 $v_\theta$ 足够具有表达力,使得公式 2 中的积分原则上可以实现从 $h$ 到 $h'$ 的多步传输。因此,我们的公式自然地将先前的转向方法作为流速场的受限实例包含在内。标准的加性公式 $h' = h + \alpha \delta(c)$ 可恢复为 $v_\theta(h, t, c) = \delta(c)$ 且 $T=\alpha$ 的特殊情况。

### 3.2 FlowBlock 架构与前向过程
我们使用一个类 Transformer 块实例化 $v_\theta$,称之为 FlowBlock(图1)。为了将概念描述 $c$ 编码为 FlowBlock 可以关注的向量序列,我们应用概念编码器 $\phi$。默认情况下,$\phi$ 重用基础模型的令牌嵌入和前几个 Transformer 层,因此 $\phi(c)$ 继承基础模型的早期层特征。

在第 $k$ 步,FlowBlock 以当前激活 $h_k$、编码后的概念 $\phi(c)$ 和当前时间 $t_k = kT/N$ 作为输入。我们首先通过正弦嵌入注入时间信号:
$$
\tilde{h}_k = h_k + \text{TimeEmbed}(t_k). \quad (4)
$$
由于 $c$ 是任意长度的序列,FlowBlock 通过交叉注意力关注它:
$$
u_k = \text{CrossAttn}(Q=\tilde{h}_k, K=\phi(c), V=\phi(c)), \quad (5)
$$
其键和值被缓存一次,并在 $N$ 个积分步骤和解码位置之间重用。因果自注意力层和前馈网络随后产生每步位移:
$$
\Delta h_k = \text{Feedforward}(\text{SelfAttn}(u_k)). \quad (6)
$$
迭代此过程 $N$ 次得到 $h_N$。在实践中,每个组件都包裹有残差连接和可学习的每通道门控,且每一步的更新按欧拉步长 $T/N$ 缩放。完整实现细节见附录B。

相似文章

FineSteer: 大规模语言模型推理时细粒度控制的统一框架

arXiv cs.CL

FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。

视觉-语言-动作模型中的闭环神经激活控制

arXiv cs.AI

提出CTRL-STEER,一种闭环框架,通过时变控制信号对视觉-语言-动作模型进行自适应引导,在无需重新训练的情况下,实现了概念调节与任务成功率之间的更好权衡。