预测方向向量的有效性

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本论文介绍了线性可访问性配置文件(LAP),一种使用logit lens的诊断方法,用于预测方向向量在模型各层的有效性,在5个模型的24个概念族上实现了ρ=+0.86到+0.91的相关性。该工作提供了一个系统框架来确定哪些层和概念适合用于方向干预,替代了临时性的试错方法。

arXiv:2604.15557v1 公告类型: 交叉摘要: 方向向量对某些概念和层有效,但对其他的则失效,实践者在执行干预前无法预测哪种情况适用。我们引入线性可访问性配置文件(LAP),一种逐层诊断方法,将logit lens重新用作方向向量有效性的预测器。关键度量$A_{\mathrm{lin}}$将模型的反嵌入矩阵应用于中间隐藏状态,无需任何训练。在5个模型(Pythia-2.8B到Llama-8B)的24个受控二元概念族上,峰值$A_{\mathrm{lin}}$对方向有效性的预测相关性为ρ = +0.86到+0.91,对层选择的预测相关性为ρ = +0.63到+0.92。一个三阶段框架解释了均值差方向法何时有效、何时需要非线性方法、何时任何方法都无法工作。一项实体方向演示从头到尾确认了该预测:在Gemma-2-2B和OLMo-2-1B-Instruct上,在LAP推荐的层进行方向干预可重定向完成,而中间层(标准启发式方法)对两个模型都无效果。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:30

# 预测转向向量何时有效

来源: https://arxiv.org/html/2604.15557
Jayadev Billa jbilla2004@gmail\.com

###### 摘要

转向向量在某些概念和层中有效，但在其他层中失效，实践者在运行干预前无法预测哪种情况适用。我们引入*线性可访问性配置文件*（LAP），这是一种逐层诊断工具，将逻辑透镜重新用作转向向量有效性的预测器。关键指标 A_lin 将模型的解嵌入矩阵应用于中间隐藏状态，无需训练。在五个模型（Pythia-2.8B 到 Llama-8B）的 24 个受控二元概念族中，峰值 A_lin 以 ρ=+0.86 到 +0.91 的相关性预测转向有效性，以 ρ=+0.63 到 +0.92 的相关性预测层选择。一个三制度框架解释了何时差分均值转向有效、何时需要非线性方法，以及何时没有方法有效。一个实体转向演示端到端确认了预测：在 LAP 推荐的层进行转向在 Gemma-2-2B 和 OLMo-2-1B-Instruct 上重定向完成，而中间层（标准启发式方法）对两个模型都无效。

## 1 引言

转向向量在残差流中添加一个方向以改变模型行为。它们已被应用于拒绝（Arditi et al., 2024）、真实性（Li et al., 2023）和更广泛的行为属性（Zou et al., 2023；Turner et al., 2023）。然而，有效性在概念和层之间变化，实践者目前通过试错法选择转向层。没有系统方法预测哪种设置会成功。

逻辑透镜（nostalgebraist, 2020）将解嵌入矩阵应用于中间隐藏状态以观察预测如何在各层演变。Belrose et al.（2023）通过学习修正（"调整透镜"）解决了层标准化不匹配问题。这些方法刻画了模型在每层"认为"什么，但没有任何方法将此测量与转向干预的成功或失败相连接。

我们将逻辑透镜重新用作*转向向量有效性的预测器*。生成的框架——线性可访问性配置文件（LAP）——在每层测量一个概念是否可通过模型自身输出投影访问，以及该可访问性是否预测转向工作的位置。以前的工作用启发式方法选择转向层，通常针对中间层。LAP 在不同的层级运作：预测一个概念是否可转向。高峰值 A_lin 的概念（例如，洲，A_lin=0.68）可有效转向；低峰值 A_lin 的概念（例如，奇偶性，A_lin=0.02）则不行。我们用非线性上界（残差 MLP）补充逻辑透镜以量化*探针间隙*，并测量扰动敏感性（λ）以识别表示不稳定的层。

我们在单标记下一标记完成任务上验证 LAP，其中逻辑透镜给出明确的准确性指标。多标记设置的扩展在第 5 节讨论。我们主要在 Gemma-2-2B 上评估，并在 Llama-3.1-8B、Mistral-7B-v0.3、Qwen2.5-7B 和两个非 Transformer（Mamba-1.4B、RWKV-1.6B）上复制。一个实体转向演示端到端验证 LAP：在 LAP 推荐的层转向伦敦回答提示指向"巴黎"在 Gemma-2-2B 和 OLMo-2-1B-Instruct 上重定向完成，而中间层对两个模型都无效。

我们的贡献：（1）逻辑透镜测量与转向向量有效性之间的联系，在两个层级（层选择和可转向性预测）在 24 个受控族和五个模型上验证；（2）一个三制度框架，解释何时差分均值转向有效、何时需要非线性方法，以及何时没有方法有效；（3）一个使用 25 个二元概念族的受控实验设计，将表示几何与任务结构混淆分离。

## 2 相关工作

#### 逻辑透镜和探测。

nostalgebraist（2020）引入了逻辑透镜；Belrose et al.（2023）提出调整透镜以解决层标准化不匹配；Yom Din et al.（2023）研究了预测如何在特定层变化。我们表明，尽管存在不匹配，标准逻辑透镜是转向有效性的强预测器。通过使用模型自身的解嵌入（一个固定的、未训练的投影），我们避免了适用于训练探针的选择性问题（Belinkov, 2022）。权衡是我们测量与一个特定线性投影的对齐，而不是一般线性可解码性。

#### 线性表示。

Park et al.（2024）形式化了线性表示假设并将其与探测和转向相连接。Nanda et al.（2023）在 Othello 棋盘游戏模型中观察到线性表示。该假设受到了质疑：Csordás et al.（2024）在小型模型中显示非线性编码，Engels et al.（2024）演示了多维特征流形。我们不假设该假设普遍成立；LAP 测量其成立的位置和程度。

#### 转向和干预。

Zou et al.（2023）引入了表示工程。Turner et al.（2023）形式化了激活添加。Arditi et al.（2024）识别了调解拒绝的单一方向。每种方法在其目标概念上演示了成功，但不预测转向何时会在新概念或层上成功。

#### 稀疏自编码器和转编码器。

Templeton et al.（2024）将 SAE 扩展到大型模型；Lieberum et al.（2024）发布 GemmaScope 转编码器；Ameisen et al.（2025）介绍了属性图。我们的三制度框架预测 SAE 特征在制度 2（概念存在但不输出对齐）最有用，此时差分均值失败。

## 3 方法

### 3.1 设置

考虑一个有 L 个 Transformer 块的因果语言模型。每个块读写共享的*残差流*：h_ℓ = h_{ℓ-1} + block_ℓ(h_{ℓ-1})，其中 h_0 是标记嵌入。最后一个块之后，输出头生成逻辑：logits = W_U · LayerNorm(h_L)，其中 W_U ∈ ℝ^{V×d} 是解嵌入矩阵。因为残差流在每一层都存在于 ℝ^d 中，此输出头可应用于任何中间 h_ℓ，这是逻辑透镜的基础。

对于概念族 C = {(x_i, t_i)}_{i=1}^N，其中每个提示 x_i 有正确的下一标记答案 t_i，我们测量该概念在每层的线性可访问性。

### 3.2 线性准确性（逻辑透镜）

我们将模型的解嵌入应用于中间隐藏状态：

A_lin(ℓ) = (1/N) ∑_{i=1}^N {1 if argmax_v(W_U · LayerNorm(h_ℓ^{(i)}))_v = t_i; 0 otherwise}

这是以分类准确性评估的逻辑透镜，覆盖概念族。无需训练。我们将*最后*层标准化应用于中间状态，继承 Belrose et al.（2023）讨论的层标准化不匹配问题。我们在第 5 节评估此不匹配的影响。

### 3.3 探针间隙

逻辑透镜测量通过模型输出投影线性可访问的内容，但概念信息可能以需要非线性变换才能与解嵌入对齐的形式存在。*探针间隙* Δ(ℓ) = A_mlp(ℓ) - A_lin(ℓ) 量化在层 ℓ 存在多少概念信息但不输出对齐。

我们训练一个残差 MLP 来计算 A_mlp：

ĥ_ℓ = h_ℓ + f_θ(h_ℓ), A_mlp(ℓ) = (1/N) ∑_{i=1}^N {1 if argmax_v(W_U · LayerNorm(ĥ_ℓ^{(i)}))_v = t_i; 0 otherwise}

其中 f_θ 是一个两层 MLP（d→512→d），带层标准化、GELU 和 dropout（p=0.1），在 80% 的提示上训练以最小化交叉熵。残差连接确保 MLP 学习修正而非替换隐藏状态。大型探针间隙表明该层有非线性编码；即使信息存在，转向也不太可能有效。

### 3.4 扰动敏感性

我们测量层 ℓ 的小随机扰动被后续计算放大的程度：

λ(ℓ) = (1/K) ∑_{k=1}^K ‖f(h_ℓ + αε_k) - f(h_ℓ)‖ / α，α = 0.01 · ‖h_ℓ‖

其中 ε_k 是随机单位向量，f 是从层 ℓ 到输出逻辑的前向传递，K=10。高 λ 表示不稳定表示，其中转向向量将产生不可预测的效果。

### 3.5 线性可访问性配置文件

对于概念族 C 和层 ℓ，*线性可访问性配置文件*（LAP）是：

LAP(ℓ) = (A_lin(ℓ), Δ(ℓ), λ(ℓ))

在这些中，A_lin 是主要预测器。剩余组件刻画转向可能失败的原因：高 Δ 意味着信息存在但不输出对齐；高 λ 意味着表示不稳定。

### 3.6 概念族

我们使用两组概念族。所有正确答案都是模型词汇中的单个标记（必需的，因为逻辑透镜在单个标记上产生分布）。

#### 核心族（5 个）。

五个异构族（表 1）用于*概念内*分析：测量 A_lin、Δ 和 λ 如何在单个概念的各层变化。

表 1：核心概念族（用于概念内层分析）。所有正确答案都是单个标记。

#### 受控二元族（25 个）。

对于跨概念的*可转向性预测*，必须消除任务结构混淆。核心族在答案类计数、目标大小和提示格式方面有所不同；在它们之间比较可转向性产生非显著相关性（ρ=+0.18，p=0.54）。我们构建了 25 个受控二元族（附录中的表 14）：每个都有两个答案类、平衡的组（～22 项每类）和一致的模板。这揭示了底层信号（ρ=+0.86 到 +0.91，p<10^{-3}；详见附录 D）。

## 4 实验

我们主要在 Gemma-2-2B（26 层，d=2304）上评估，并在 Llama-3.1-8B（32 层）、Mistral-7B-v0.3（32 层）、Qwen2.5-7B（28 层）和两个非 Transformer 架构上复制：Mamba-1.4B（48 层）和 RWKV-1.6B（24 层）。附录中的表 6 指定了每个实验使用的模型。

### 4.1 跨层的线性可访问性

表 2 报告了主要结果。所有五个族在第 0-15 层显示零线性准确性，在第 18-24 层急剧出现，与逻辑透镜文献一致（nostalgebraist, 2020；Yom Din et al., 2023）。在四个五个族中，准确性在第 23-24 层达到峰值（不是最后一层）。

表 2：Gemma-2-2B 跨层的线性可访问性。A_lin：最佳层的逻辑透镜准确性。A_mlp：MLP 探针准确性。Δ：探针间隙。Acc(a)：模型正确回答的提示的 A_lin。Acc(b)：模型错误回答的提示的 A_lin。

图 1：Gemma-2-2B 上每个概念族的逐层 A_mlp（实线）和 A_lin（虚线）。间隙介于实线和虚线之间是探针间隙 Δ。所有族在第 0-15 层显示 A_lin=0，在第 18-24 层急剧出现。非线性探针实质性更早检测到概念——序列在第 5 层达到 A_mlp>0.9，而 A_lin 直到第 18 层保持零。探针间隙差异很大。对于算术和序列，Δ≈0.22：该概念在最佳层主要是线性的。对于地理，Δ=0.720：MLP 达到完美准确性，而逻辑透镜仅达到 28.0%。MLP 也更早检测到概念：序列在第 5 层非线性可访问（A_mlp=0.91），但直到第 20 层才线性可访问（A_lin=0.60）。

#### 结晶间隙。

我们将非线性检测（A_mlp>0.5）和线性出现（A_lin>0.1）之间的间隙定义为*结晶间隙*。两个指标都在整个词汇上测量 argmax 准确性（～256K 标记），所以机会实际上为零。A_mlp 阈值 50% 表示非线性探针为大多数提示恢复正确标记。A_lin 阈值较低，为 10%，因为 1-3% 的零星值可能来自解嵌入中的标记频率偏差；10% 需要大部分提示具有正确标记作为...

预测方向向量的有效性

相似文章

你的LLM何时可引导？

超越引导向量：用于推理时干预的基于流的激活引导

你的LLM何时可引导？

保持专注：通过键正交投影实现激活转向

SALSA：通过学习的引导激活向量实现语音感知LLM的自适应

提交意见反馈