你的LLM何时可引导？

arXiv cs.CL 2026/06/11 04:00 论文

摘要

本文通过分析早期解码动态，研究了激活引导在LLM上何时成功或失败。作者引入了ASTEER，这是一个包含大量引导生成结果的大型测试平台，并训练了一个GBDT分类器，通过早期隐藏状态预测引导结果，从而实现高效的引导强度搜索。

arXiv:2606.11599v1 Announce Type: new Abstract: 激活引导提供了一种轻量级的方法来控制语言模型在推理时的行为，但其成功与否在很大程度上取决于提示、概念、模型和引导配置。找到成功引导的范围和边界通常需要昂贵的网格搜索以及对完整自回归生成结果的事后评估。在这项工作中，我们研究了是否可以从生成过程开始时的模型内部状态（例如，在生成前几个token之后）预测可引导性，以及如何利用这样的预测器来提高引导成功率。为此，我们首先引入了ASTEER，这是一个包含140万次引导生成的测试平台，涵盖150个概念，每个引导都有成功/失败的标签。利用这个测试平台，我们通过提取特征来比较引导前后跨层和初始解码步骤的隐藏状态，分析了模型的早期解码动态。这些特征帮助我们理解引导的效果如何沿层和token位置传播，从而为可引导性预测提供关键信息。然后，我们基于这些特征训练了一个梯度提升决策树（GBDT）分类器，用于预测干预是否会引导不足、成功或过度，而无需完整的生成过程。我们的预测器在未见概念上达到了约0.7的宏F1分数，表明早期隐藏状态编码了关于最终引导效果的丰富结构化信息。我们进一步利用这一可引导性预测器作为引导强度搜索的指导，以极小的一部分解码成本实现了接近最优的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:39

# 你的大语言模型何时可控？

来源: https://arxiv.org/html/2606.11599  
陈锐凡1, 程以泽1, 李明1,2, Soheil Feizi1, 周天一2  
1马里兰大学帕克分校, 2穆罕默德·本·扎耶德人工智能大学  
{cfan42, yzcheng, minglii, sfeizi}@umd.edu, [email protected]  
项目主页: https://github.com/Fcr09/SteerBoost  

###### 摘要  

激活引导提供了一种轻量级的方法，在推理时控制语言模型的行为。但其成败很大程度上取决于提示、概念、模型和引导配置。要找到成功引导的区间和边界，通常需要进行昂贵的网格搜索以及对完整自回归生成结果的事后评估。在这项工作中，我们研究了**可引导性**是否可以从生成过程早期（例如，生成前几个token后）的模型内部状态中预测出来，以及如何利用这样的预测器来提高引导的成功率。为此，我们首先构建了 ASTEER 测试平台，包含 140 万个受控生成样本，覆盖 150 个概念，每个样本都标注了引导成功或失败。利用这个测试平台，我们通过提取特征来比较引导前后各层及初始解码步的隐藏状态，分析了模型的早期解码动态。这些特征帮助我们理解引导效果如何在层和token位置上传播，并为可引导性预测提供了关键信息。接着，我们在这些特征上训练了梯度提升决策树 (GBDT) 分类器，以预测一次干预是欠引导、成功还是过引导，而无需完整生成。我们的预测器在未见过的概念上达到了约 0.7 的宏平均 F1 分数，表明早期隐藏状态编码了关于最终引导效果的丰富、结构化的信息。我们进一步利用这个可引导性预测器作为引导强度搜索的指导，以极小的解码成本实现了接近最优的性能。

## 1 引言

推理时激活工程，或称*引导*，提供了一种轻量级的方法来控制大型语言模型 (LLM) 的行为，无需额外的微调 [16, 10, 20, 15]。通过在推理过程中向模型的隐藏状态注入精心构建的方向，可以偏向生成过程朝向目标概念或行为。先前的工作表明，这种干预可以影响一系列重要属性，包括真实性 [10]、拒绝行为 [2, 13, 9]、多维度可信赖性 [22] 和潜在的社会偏见 [11]。这些结果表明，引导是一种有前途的、快速灵活控制模型行为的技术。

虽然大多数工作集中在开发更有效的引导策略上，但对于不同 LLM 在概念、提示和引导强度联合空间中的可引导域边界，研究尚不充分。相同的干预可能对一个提示或概念效果良好，但对另一个却失败；而合适的引导强度通常在概念和提示间变化很大 [21, hedström2025steersteermechanisticerror, 28]。因此，现有的实践常常依赖于使用事后、完整的自回归生成结果对引导系数进行昂贵的网格搜索，以识别成功的干预。更重要的是，这种脆弱性引发了一些尚不明确的问题：*何时*引导尝试会成功？在*什么条件下*会失败？此外，可引导性是否是一种可以在解码完成之前预测的结构化属性？

并行的一系列工作为研究这个问题提供了一条自然的途径。最近的研究表明，生成早期的隐藏状态已经包含了关于后续模型行为的预测信号，包括幻觉 [7, 1]、有害性 [4, 23] 和答案正确性 [24, 25]。这种联系对引导尤其有说服力，因为干预和预测目标都基于相同的表示空间：引导直接作用于隐藏状态，而先前的工作表明这些隐藏状态已经编码了关于未来结果的丰富信息。如果干预的效果取决于模型内部状态中的潜在条件，那么这些条件可能在生成完整响应之前，从早期的解码轨迹中检测出来。

参见图注 图 1：传统方法需要昂贵的完整生成和 LLM 评判器来决定一次引导尝试是否成功。我们提出，可以通过前几个 token 的隐藏状态高效预测结果，如绿色路径所示。

受这些观察的启发，我们旨在从初始解码过程的隐藏状态预测引导的效果。具体来说，**给定一个提示、概念和引导配置，能否在不解码完整响应的情况下，从最初几个解码 token 的状态推断出这次引导尝试是否会成功？** 为此，我们首先构建了一个覆盖 150 个概念的可引导性数据集，包含 140 万个已标注引导效果的受控生成样本。通过比较模型在多个层和解码位置上，引导前后早期的隐藏状态，我们提取了关于引导几何形态、解码动态和引导条件的主要特征，以表征引导信号如何在网络中传播。这些特征随后用于训练梯度提升决策树 (GBDT)，该模型能够在未见过的概念上以约 0.7 的宏平均 F1 分数预测引导效果。

这个框架不仅有助于理解可引导性作为模型、提示和干预的一个属性，也有助于支持下游应用。特别地，我们展示了如何利用引导预测显著降低搜索有效引导强度的成本，而无需进行详尽的完整生成和评估。

**主要贡献：**

- • 我们整理了一个引导数据集，涵盖了多个 LLM 在不同提示、概念和引导强度下的受控响应。它能够对 LLM 中引导的潜在动态进行细粒度分析。
- • 我们开发了捕捉引导对潜在动态影响的特征，从而实现对引导成功和两种失败模式的可解释预测。
- • 通过利用可引导性预测器的泛化能力，我们引入了一种实用方法，可以分配最优的引导配置以提高性能。

## 2 引导与可引导性

假设我们有一组提示 P，其中每个提示 p ∈ P 是一个 token 序列 p = (x₁, ..., x_T)。在 LLM 推理过程中，如果不进行激活引导，对于给定的 token 步 t，隐藏状态在整个序列上逐层计算。令 h_{1:t}^(i) 为第 i 层截止到 token t 的隐藏状态序列，我们有：

h_{1:t}^(i) = DecoderLayer_i(h_{1:t}^(i-1))  对于 i ∈ {1, ..., N}。 (1)

将目标概念集表示为 C，标量引导强度集表示为 A。为了将模型引导至概念 c ∈ C，使用强度 α ∈ A 和引导方法 S，我们在特定层 L_steer 施加引导向量 v_{S(c)}（简写为 v_c）。除了在层 L_steer 之外，前向传播与基础 LLM 相同。令 h~ 表示受控的隐藏状态，我们有：

h~_{1:t}^(i) = DecoderLayer_i(h~_{1:t}^(i-1))  对于 i ≠ L_steer  (2)

h~_{1:t}^(L_steer) = DecoderLayer_{L_steer}(h~_{1:t}^(L_steer-1)) + α v_c  (3)

我们将受控模型的完整生成结果表示为 y_{p,c,α}:

y_{p,c,α} = LLM(p, α, v_c)。 (4)

类似于 hedström2025steersteermechanisticerror 中的定义，令 Λ = {UnderSteer, SuccSteer, OverSteer} 为离散标签空间，定义了引导尝试的结果。具体来说，如果响应连贯地回答了提示并融入了期望的概念，则认为引导尝试是成功的。两种失败模式包括 UnderSteer（欠引导，响应未融入概念）和 OverSteer（过引导，模型未能连贯地处理提示）。评判模型根据概念 c 和生成结果 y_{p,c,α} 评估生成结果是否同时满足这两个属性。

然而，生成完整结果并调用评判模型在计算上非常昂贵，这使得探索庞大的引导配置空间变得成本高昂。我们的目标是构建一个预测器，仅使用受控模型最初几个生成 token 的隐藏状态来预测引导结果，而**无需**计算完整生成结果，如图 1 中的绿色路径所示。

为此，我们构建了一个大规模数据集 ASTEER（第 3 节），覆盖了多样化的引导配置。我们的分析（第 3.4 节）表明，引导结果在方法、模型、提示、概念和强度上都很脆弱，这强调了理解引导何时有效工作的必要性。为了促进这种理解，我们随后开发了 SteerBoost（第 4 节），它以这些早期的隐藏状态作为输入，高效预测引导结果，既帮助我们研究引导失败或成功的时间和原因，也支持实际应用，如高效的可引导性表征和加速超参数搜索（第 5 节）。

## 3 ASTEER 数据集

为了创建激活引导 (Activation STEERing) 结果预测的测试平台，我们构建了 ASTEER 数据集，覆盖 150 个概念和 50 个提示，包含 142 万个受控生成样本，如图 3 所示。

参见图注 图 2：我们构建了 ASTEER，包含 150 个概念、50 个提示和两种引导方法（即 DiffMean 和 Probe），分别有 45 和 18 个引导强度。引导应用于 3 个 LLM，其生成结果由 LLM 评判器标注为表 2 中的标签之一。

### 3.1 引导概念和提示

我们构建了一组 150 个概念，涵盖三个抽象层次：低层、中层和高层，旨在系统地改变目标行为的形式和粒度。低层概念捕获表面形式和格式属性，这些属性通常是局部的，并直接可在 token 空间中观察到。中层概念代表语篇层面的行为，而高层概念涉及角色、主题和整体响应框架，更为抽象。表 1 展示了一些不同层次的概念示例。概念列表见附录 J。

表 1: 不同概念层次的示例。我们的概念列表跨越不同的抽象层次，涵盖低层输出格式限制到高层风格和角色控制。

我们从 Alpaca [17] 数据集中抽取了 50 个提示用于我们的研究，并在所有概念中保持这些提示不变，作为可引导性比较的受控设置。提示列表见附录 K。尽管 AxBench [21] 也有用于激活引导评估的概念列表（从 GemmaScope 的 Neuronpedia SAE 概念列表中采样），但我们未采用其列表，因为我们发现他们的 SAE 风格概念不适合我们的场景。他们的许多概念非常具体，例如“个体及其在群体或事件背景下的角色或贡献的名称”和“与多层结构或系统相关的术语”，这限制了其对更广泛提示集的泛化能力。

### 3.2 响应标注

根据第 2 节的定义，我们使用 GPT-5-nano [14] 为每个受控生成样本标注以下标签之一：UnderSteer、SuccSteer 或 OverSteer，如表 2 所示。我们用于标注受控响应的提示见附录 I。

为了进一步验证人工标注与 LLM 评判之间的一致性，我们进行了广泛的人工评估。三位人工标注员被分配了 600 个随机抽样的受控生成样本（每个模型-方法对 100 个）进行评估。标注与 SOTA 模型 (GPT-5.5 [12]) 的标注之间的 Cohen's κ 为 0.74，与人工标注之间的 κ 为 0.83，表明高度一致性，验证了自动标注的质量。

表 2: ASTEER 数据集中的标签示例。

### 3.3 引导方法

#### DiffMean。

DiffMean (均值差) [20] 是一种常用的轻量级激活引导技术。它通过计算模型处理正向输出样本（表现出该概念）和负向输出样本（缺乏或反对该概念）的平均隐藏状态之间的差异来推导引导向量 v。数学上，令 h(y) 表示 LLM 在选定层对应于文本样本 y 的隐藏状态。给定一组 N 个正向样本 y⁺ 和 M 个负向样本 y⁻，DiffMean 引导向量定义为：

v = (1/N) ∑_{i=1}^N h(y_i⁺) - (1/M) ∑_{j=1}^M h(y_j⁻)。 (5)

#### Probe。

与计算简单均值差不同，该技术训练一个监督线性分类器，明确区分正向样本 h(y⁺) 和负向样本 h(y⁻) 的隐藏状态。通过在包含 K = N + M 个样本的合并数据集上优化二值交叉熵 (BCE) 损失，引导向量 v 被定义为能够最佳分离概念的最优权重向量 w。数学上：

你的LLM何时可引导？

相似文章

受控LLM激活的非满射性

UniSteer：文本引导的激活空间流匹配实现多功能大语言模型操控

可解码但无法通过固定残差流线性转向纠正：来自医疗大语言模型失效模式的证据

SALSA：通过学习的引导激活向量实现语音感知LLM的自适应

面向高效可控LLM推理的代理式思维链引导

提交意见反馈