预测方向向量的有效性
摘要
本论文介绍了线性可访问性配置文件(LAP),一种使用logit lens的诊断方法,用于预测方向向量在模型各层的有效性,在5个模型的24个概念族上实现了ρ=+0.86到+0.91的相关性。该工作提供了一个系统框架来确定哪些层和概念适合用于方向干预,替代了临时性的试错方法。
arXiv:2604.15557v1 公告类型: 交叉
摘要: 方向向量对某些概念和层有效,但对其他的则失效,实践者在执行干预前无法预测哪种情况适用。我们引入线性可访问性配置文件(LAP),一种逐层诊断方法,将logit lens重新用作方向向量有效性的预测器。关键度量$A_{\mathrm{lin}}$将模型的反嵌入矩阵应用于中间隐藏状态,无需任何训练。在5个模型(Pythia-2.8B到Llama-8B)的24个受控二元概念族上,峰值$A_{\mathrm{lin}}$对方向有效性的预测相关性为ρ = +0.86到+0.91,对层选择的预测相关性为ρ = +0.63到+0.92。一个三阶段框架解释了均值差方向法何时有效、何时需要非线性方法、何时任何方法都无法工作。一项实体方向演示从头到尾确认了该预测:在Gemma-2-2B和OLMo-2-1B-Instruct上,在LAP推荐的层进行方向干预可重定向完成,而中间层(标准启发式方法)对两个模型都无效果。
查看缓存全文
缓存时间: 2026/04/20 08:30
# 预测转向向量何时有效
来源: https://arxiv.org/html/2604.15557
Jayadev Billa jbilla2004@gmail\.com
###### 摘要
转向向量在某些概念和层中有效,但在其他层中失效,实践者在运行干预前无法预测哪种情况适用。我们引入*线性可访问性配置文件*(LAP),这是一种逐层诊断工具,将逻辑透镜重新用作转向向量有效性的预测器。关键指标 A_lin 将模型的解嵌入矩阵应用于中间隐藏状态,无需训练。在五个模型(Pythia-2.8B 到 Llama-8B)的 24 个受控二元概念族中,峰值 A_lin 以 ρ=+0.86 到 +0.91 的相关性预测转向有效性,以 ρ=+0.63 到 +0.92 的相关性预测层选择。一个三制度框架解释了何时差分均值转向有效、何时需要非线性方法,以及何时没有方法有效。一个实体转向演示端到端确认了预测:在 LAP 推荐的层进行转向在 Gemma-2-2B 和 OLMo-2-1B-Instruct 上重定向完成,而中间层(标准启发式方法)对两个模型都无效。
## 1 引言
转向向量在残差流中添加一个方向以改变模型行为。它们已被应用于拒绝(Arditi et al., 2024)、真实性(Li et al., 2023)和更广泛的行为属性(Zou et al., 2023;Turner et al., 2023)。然而,有效性在概念和层之间变化,实践者目前通过试错法选择转向层。没有系统方法预测哪种设置会成功。
逻辑透镜(nostalgebraist, 2020)将解嵌入矩阵应用于中间隐藏状态以观察预测如何在各层演变。Belrose et al.(2023)通过学习修正("调整透镜")解决了层标准化不匹配问题。这些方法刻画了模型在每层"认为"什么,但没有任何方法将此测量与转向干预的成功或失败相连接。
我们将逻辑透镜重新用作*转向向量有效性的预测器*。生成的框架——线性可访问性配置文件(LAP)——在每层测量一个概念是否可通过模型自身输出投影访问,以及该可访问性是否预测转向工作的位置。以前的工作用启发式方法选择转向层,通常针对中间层。LAP 在不同的层级运作:预测一个概念是否可转向。高峰值 A_lin 的概念(例如,洲,A_lin=0.68)可有效转向;低峰值 A_lin 的概念(例如,奇偶性,A_lin=0.02)则不行。我们用非线性上界(残差 MLP)补充逻辑透镜以量化*探针间隙*,并测量扰动敏感性(λ)以识别表示不稳定的层。
我们在单标记下一标记完成任务上验证 LAP,其中逻辑透镜给出明确的准确性指标。多标记设置的扩展在第 5 节讨论。我们主要在 Gemma-2-2B 上评估,并在 Llama-3.1-8B、Mistral-7B-v0.3、Qwen2.5-7B 和两个非 Transformer(Mamba-1.4B、RWKV-1.6B)上复制。一个实体转向演示端到端验证 LAP:在 LAP 推荐的层转向伦敦回答提示指向"巴黎"在 Gemma-2-2B 和 OLMo-2-1B-Instruct 上重定向完成,而中间层对两个模型都无效。
我们的贡献:(1)逻辑透镜测量与转向向量有效性之间的联系,在两个层级(层选择和可转向性预测)在 24 个受控族和五个模型上验证;(2)一个三制度框架,解释何时差分均值转向有效、何时需要非线性方法,以及何时没有方法有效;(3)一个使用 25 个二元概念族的受控实验设计,将表示几何与任务结构混淆分离。
## 2 相关工作
#### 逻辑透镜和探测。
nostalgebraist(2020)引入了逻辑透镜;Belrose et al.(2023)提出调整透镜以解决层标准化不匹配;Yom Din et al.(2023)研究了预测如何在特定层变化。我们表明,尽管存在不匹配,标准逻辑透镜是转向有效性的强预测器。通过使用模型自身的解嵌入(一个固定的、未训练的投影),我们避免了适用于训练探针的选择性问题(Belinkov, 2022)。权衡是我们测量与一个特定线性投影的对齐,而不是一般线性可解码性。
#### 线性表示。
Park et al.(2024)形式化了线性表示假设并将其与探测和转向相连接。Nanda et al.(2023)在 Othello 棋盘游戏模型中观察到线性表示。该假设受到了质疑:Csordás et al.(2024)在小型模型中显示非线性编码,Engels et al.(2024)演示了多维特征流形。我们不假设该假设普遍成立;LAP 测量其成立的位置和程度。
#### 转向和干预。
Zou et al.(2023)引入了表示工程。Turner et al.(2023)形式化了激活添加。Arditi et al.(2024)识别了调解拒绝的单一方向。每种方法在其目标概念上演示了成功,但不预测转向何时会在新概念或层上成功。
#### 稀疏自编码器和转编码器。
Templeton et al.(2024)将 SAE 扩展到大型模型;Lieberum et al.(2024)发布 GemmaScope 转编码器;Ameisen et al.(2025)介绍了属性图。我们的三制度框架预测 SAE 特征在制度 2(概念存在但不输出对齐)最有用,此时差分均值失败。
## 3 方法
### 3.1 设置
考虑一个有 L 个 Transformer 块的因果语言模型。每个块读写共享的*残差流*:h_ℓ = h_{ℓ-1} + block_ℓ(h_{ℓ-1}),其中 h_0 是标记嵌入。最后一个块之后,输出头生成逻辑:logits = W_U · LayerNorm(h_L),其中 W_U ∈ ℝ^{V×d} 是解嵌入矩阵。因为残差流在每一层都存在于 ℝ^d 中,此输出头可应用于任何中间 h_ℓ,这是逻辑透镜的基础。
对于概念族 C = {(x_i, t_i)}_{i=1}^N,其中每个提示 x_i 有正确的下一标记答案 t_i,我们测量该概念在每层的线性可访问性。
### 3.2 线性准确性(逻辑透镜)
我们将模型的解嵌入应用于中间隐藏状态:
A_lin(ℓ) = (1/N) ∑_{i=1}^N {1 if argmax_v(W_U · LayerNorm(h_ℓ^{(i)}))_v = t_i; 0 otherwise}
这是以分类准确性评估的逻辑透镜,覆盖概念族。无需训练。我们将*最后*层标准化应用于中间状态,继承 Belrose et al.(2023)讨论的层标准化不匹配问题。我们在第 5 节评估此不匹配的影响。
### 3.3 探针间隙
逻辑透镜测量通过模型输出投影线性可访问的内容,但概念信息可能以需要非线性变换才能与解嵌入对齐的形式存在。*探针间隙* Δ(ℓ) = A_mlp(ℓ) - A_lin(ℓ) 量化在层 ℓ 存在多少概念信息但不输出对齐。
我们训练一个残差 MLP 来计算 A_mlp:
ĥ_ℓ = h_ℓ + f_θ(h_ℓ), A_mlp(ℓ) = (1/N) ∑_{i=1}^N {1 if argmax_v(W_U · LayerNorm(ĥ_ℓ^{(i)}))_v = t_i; 0 otherwise}
其中 f_θ 是一个两层 MLP(d→512→d),带层标准化、GELU 和 dropout(p=0.1),在 80% 的提示上训练以最小化交叉熵。残差连接确保 MLP 学习修正而非替换隐藏状态。大型探针间隙表明该层有非线性编码;即使信息存在,转向也不太可能有效。
### 3.4 扰动敏感性
我们测量层 ℓ 的小随机扰动被后续计算放大的程度:
λ(ℓ) = (1/K) ∑_{k=1}^K ‖f(h_ℓ + αε_k) - f(h_ℓ)‖ / α,α = 0.01 · ‖h_ℓ‖
其中 ε_k 是随机单位向量,f 是从层 ℓ 到输出逻辑的前向传递,K=10。高 λ 表示不稳定表示,其中转向向量将产生不可预测的效果。
### 3.5 线性可访问性配置文件
对于概念族 C 和层 ℓ,*线性可访问性配置文件*(LAP)是:
LAP(ℓ) = (A_lin(ℓ), Δ(ℓ), λ(ℓ))
在这些中,A_lin 是主要预测器。剩余组件刻画转向可能失败的原因:高 Δ 意味着信息存在但不输出对齐;高 λ 意味着表示不稳定。
### 3.6 概念族
我们使用两组概念族。所有正确答案都是模型词汇中的单个标记(必需的,因为逻辑透镜在单个标记上产生分布)。
#### 核心族(5 个)。
五个异构族(表 1)用于*概念内*分析:测量 A_lin、Δ 和 λ 如何在单个概念的各层变化。
表 1:核心概念族(用于概念内层分析)。所有正确答案都是单个标记。
#### 受控二元族(25 个)。
对于跨概念的*可转向性预测*,必须消除任务结构混淆。核心族在答案类计数、目标大小和提示格式方面有所不同;在它们之间比较可转向性产生非显著相关性(ρ=+0.18,p=0.54)。我们构建了 25 个受控二元族(附录中的表 14):每个都有两个答案类、平衡的组(~22 项每类)和一致的模板。这揭示了底层信号(ρ=+0.86 到 +0.91,p<10^{-3};详见附录 D)。
## 4 实验
我们主要在 Gemma-2-2B(26 层,d=2304)上评估,并在 Llama-3.1-8B(32 层)、Mistral-7B-v0.3(32 层)、Qwen2.5-7B(28 层)和两个非 Transformer 架构上复制:Mamba-1.4B(48 层)和 RWKV-1.6B(24 层)。附录中的表 6 指定了每个实验使用的模型。
### 4.1 跨层的线性可访问性
表 2 报告了主要结果。所有五个族在第 0-15 层显示零线性准确性,在第 18-24 层急剧出现,与逻辑透镜文献一致(nostalgebraist, 2020;Yom Din et al., 2023)。在四个五个族中,准确性在第 23-24 层达到峰值(不是最后一层)。
表 2:Gemma-2-2B 跨层的线性可访问性。A_lin:最佳层的逻辑透镜准确性。A_mlp:MLP 探针准确性。Δ:探针间隙。Acc(a):模型正确回答的提示的 A_lin。Acc(b):模型错误回答的提示的 A_lin。
图 1:Gemma-2-2B 上每个概念族的逐层 A_mlp(实线)和 A_lin(虚线)。间隙介于实线和虚线之间是探针间隙 Δ。所有族在第 0-15 层显示 A_lin=0,在第 18-24 层急剧出现。非线性探针实质性更早检测到概念——序列在第 5 层达到 A_mlp>0.9,而 A_lin 直到第 18 层保持零。探针间隙差异很大。对于算术和序列,Δ≈0.22:该概念在最佳层主要是线性的。对于地理,Δ=0.720:MLP 达到完美准确性,而逻辑透镜仅达到 28.0%。MLP 也更早检测到概念:序列在第 5 层非线性可访问(A_mlp=0.91),但直到第 20 层才线性可访问(A_lin=0.60)。
#### 结晶间隙。
我们将非线性检测(A_mlp>0.5)和线性出现(A_lin>0.1)之间的间隙定义为*结晶间隙*。两个指标都在整个词汇上测量 argmax 准确性(~256K 标记),所以机会实际上为零。A_mlp 阈值 50% 表示非线性探针为大多数提示恢复正确标记。A_lin 阈值较低,为 10%,因为 1-3% 的零星值可能来自解嵌入中的标记频率偏差;10% 需要大部分提示具有正确标记作为...相似文章
你的LLM何时可引导?
本文通过分析早期解码动态,研究了激活引导在LLM上何时成功或失败。作者引入了ASTEER,这是一个包含大量引导生成结果的大型测试平台,并训练了一个GBDT分类器,通过早期隐藏状态预测引导结果,从而实现高效的引导强度搜索。
超越引导向量:用于推理时干预的基于流的激活引导
本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。
你的LLM何时可引导?
本文介绍了一种方法,利用梯度提升决策树(GBDT)分类器,从早期解码状态预测语言模型中激活引导的有效性,从而无需完整生成即可高效优化引导强度。
保持专注:通过键正交投影实现激活转向
本文介绍了通过键正交投影进行转向(SKOP)方法,该方法通过防止注意力重路由来控制大语言模型(LLM)的行为,从而在保持转向效果的同时降低效用下降。
SALSA:通过学习的引导激活向量实现语音感知LLM的自适应
SALSA提出了一种轻量级自适应方法,用于语音感知的大语言模型,通过监督目标学习逐层引导向量,在域外语音基准上取得了显著改进(相对提升高达46.8%),并表明引导编码器层(尤其是较深层)比修改LLM主干更有效。