面向语言模型激活引导的高维随机投影

arXiv cs.LG 2026/06/16 04:00 论文

摘要

HiDRA 是一种无需训练的方法，利用高维随机投影在大型语言模型中进行激活引导，能够捕捉超越线性方法的判别信号，并在多种模型系列和基准测试中持续优于现有基线。

arXiv:2606.15092v1 公告类型: 新摘要: 激活引导已成为控制大型语言模型（LLMs）行为的关键方法。然而，现有的基于均值差异的方法存在根本性局限：它们仅捕获类别激活之间的均值差异，无法恢复在叠加假设下非线性特征子空间中自然存在的判别信号。受此启发，我们提出了面向激活引导的高维随机投影（HiDRA），这是一种无需训练的方法，能够与现有的激活引导方法无缝集成。通过在投影后的高维空间中执行激活加法，HiDRA 可证明地捕获超越线性方法所能达到的更优判别结构。跨多种大型语言模型系列和基准测试的实验表明，HiDRA 持续优于基线方法，在无需显著计算开销的情况下实现更强的行为控制。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:37

# 基于高维随机投影的语言模型激活控制技术  
来源：https://arxiv.org/html/2606.15092  

Minh-Hieu Pham  
河内科技大学  
[email protected]  

Bach Do¹  
河内科技大学  
[email protected]  

Laziz Abdullaev¹  
新加坡国立大学数学系  
[email protected]  

Tan Minh Nguyen  
新加坡国立大学数学系  
[email protected]  

Khoat Than  
河内科技大学  
[email protected]  

###### 摘要  

激活控制已成为控制大型语言模型行为的关键方法。然而，现有基于均值差的方法存在根本性局限：它们仅捕捉类别激活之间的均值差异，无法恢复在叠加假设下非线性特征子空间中自然存在的判别信号。受此启发，我们提出**高维随机投影激活控制**（HiDRA），这是一种无需训练的方法，可与现有激活控制方法无缝集成。通过在投影到高维空间中进行激活加法，HiDRA 能够证明性地捕获超越线性方法可达的更好判别结构。跨不同 LLM 系列和基准的实验表明，HiDRA 始终优于基线方法，在无显著计算开销的情况下实现更强的行为控制。

## 1 引言  

大型语言模型现已无处不在，支持文本生成、推理、总结和知识检索等应用（Brown 等人，2020 (https://arxiv.org/html/2606.15092#bib.bib11)；Lewis 等人，2020 (https://arxiv.org/html/2606.15092#bib.bib3)；Ouyang 等人，2022 (https://arxiv.org/html/2606.15092#bib.bib6)；Naveed 等人，2025 (https://arxiv.org/html/2606.15092#bib.bib10)）。随着能力增长，这些系统被赋予越来越高的自主性，无论是作为协助人类的助手，还是执行复杂任务的智能体（Schick 等人，2023 (https://arxiv.org/html/2606.15092#bib.bib4)；Wang 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib5)）。这一转变增强了对有效行为控制的需求：引导模型行为朝向期望目标、领域或交互风格，同时保持输出有用、连贯且上下文恰当，理想情况下无需昂贵的重新训练（Ouyang 等人，2022 (https://arxiv.org/html/2606.15092#bib.bib6)；Wehner 等人，2025 (https://arxiv.org/html/2606.15092#bib.bib9)）。除了标准的微调流程，后验控制技术日益受到关注，其中模型激活或内部表征被直接操控以诱导期望行为（Zou 等人，2023a (https://arxiv.org/html/2606.15092#bib.bib7)；Rimsky 等人，2024b (https://arxiv.org/html/2606.15092#bib.bib8)）。这一方法已在近期关于模型各种特征的研究中得到探索，包括无害性（Perez 等人，2022 (https://arxiv.org/html/2606.15092#bib.bib33)；Zou 等人，2023a (https://arxiv.org/html/2606.15092#bib.bib7)；Arditi 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib21)）和真实性（Li 等人，2023 (https://arxiv.org/html/2606.15092#bib.bib39)）。一些最常用的后验控制协议是使用**激活加法**（Turner 等人，2023a (https://arxiv.org/html/2606.15092#bib.bib20)）和**方向消融**（Arditi 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib21)）将偏移项注入模型关心的中间激活。这些方法提供了轻量且灵活的替代方案，使得能够按需调整模型输出、注入新行为或抑制不期望的行为，而无需大量计算资源。

尽管简单有效，大多数基于**均值差**（DiM）的控制方法（Rimsky 等人，2024b (https://arxiv.org/html/2606.15092#bib.bib8)；Turner 等人，2023b (https://arxiv.org/html/2606.15092#bib.bib53)；Arditi 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib21)；Rodriguez 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib46)；Vu 和 Nguyen，2025 (https://arxiv.org/html/2606.15092#bib.bib24)）直接在原始激活空间中使用一阶统计量估计方向。这隐含假设行为相关信号能由残差流中的线性均值偏移充分表示。然而，一阶均值差异并未捕获所有行为相关的类别差异。正如我们在第3节 (https://arxiv.org/html/2606.15092#S3) 中所示，在**叠加假设**（Elhage 等人，2022 (https://arxiv.org/html/2606.15092#bib.bib17)）下，激活可建模为多个纠缠的潜在特征的叠加，允许类别差异通过原始空间均值方向之外的残余或二阶结构显现。这一局限促使我们采取不同视角：与其改变控制算法本身，不如改变估计和应用控制方向的空间。近期工作通过在被稀疏自编码器学习的稀疏特征空间中进行控制，探索了这一思想，以实现更可解释的行为控制（Bayat 等人，2025 (https://arxiv.org/html/2606.15092#bib.bib66)；He 等人，2025 (https://arxiv.org/html/2606.15092#bib.bib74)）。我们采用一种互补的、无需训练的方法，基于非线性随机特征映射，将激活扩展到更高维空间。在该空间中，原始激活坐标中的非线性残余判别信号可以证明性地被线性估计器更好捕捉，从而使 DiM 控制更有效，如第3节 (https://arxiv.org/html/2606.15092#S3) 所示。

**贡献。** 我们总结贡献如下：

1. 1. 我们提出理论分析，表明在叠加假设下，行为子空间中存在二阶判别信号（第3.3节 (https://arxiv.org/html/2606.15092#S3.SS3)）。我们证明特征空间 DiM 能够捕获超出原始线性均值方向的残余判别信号（命题3.1 (https://arxiv.org/html/2606.15092#S3.Thmtheorem1) 和定理3.5 (https://arxiv.org/html/2606.15092#S3.Thmtheorem5)）。
2. 2. 我们提出 HiDRA（**高维随机投影激活控制**），一种即插即用的控制框架，将激活映射到高维非线性随机特征空间，在该空间中进行控制，然后将干预后的激活投影回残差流。
3. 3. 我们在越狱、真实性和 CAA 风格多项选择题回答上评估 HiDRA，显示其在更大程度上保留一般模型能力的同时，改进现有激活控制基线的控制性能。

\(x^{(l)}\)  
\(\mathbf{x}^{(l)}\)  
\(\mathbb{R}^d\)  
\(\sigma(\mathbf{A}\cdot)\)  
\(\sigma(\mathbf{A}\mathbf{x}^{(l)})\)  
\(\mathbb{R}^m\)  
\(\sigma(\mathbf{A}\mathbf{x}^{(l)}) + \alpha\mathbf{d}^{(l)}\)  
\(\mathbb{R}^m\)  
\(\mathbf{A}^{\dagger}\sigma^{-1}\)  
\(\mathbf{x}^{(l)}\)  
\(\mathbb{R}^d\), 被控制  
\(\alpha\mathbf{d}^{(l)}\)  
在 \(\mathbb{R}^m\) 中的 DiM  
++  
图 1：HiDRA 流程。在提升的高维空间中计算的均值差控制向量 \(\mathbf{d}^{(l)}\)，以强度 \(\alpha\) 添加，然后提升后的激活被投影回原始空间。

**组织结构。** 本文结构如下：第2节 (https://arxiv.org/html/2606.15092#S2) 提供必要的背景知识。第3节 (https://arxiv.org/html/2606.15092#S3) 给出 HiDRA 的理论基础。主要方法在第4节 (https://arxiv.org/html/2606.15092#S4) 中呈现，实验结果在第5节 (https://arxiv.org/html/2606.15092#S5) 中提供。第6节 (https://arxiv.org/html/2606.15092#S6) 进行消融和额外实证分析。第7节 (https://arxiv.org/html/2606.15092#S7) 讨论与我们的方法相关的现有工作。最后一节为结论性评述，而证明、额外实验细节与结果以及扩展消融可在本文附录中找到。

**符号说明。** 标量用小写字母 \((a, b, \alpha)\)，向量用粗体小写字母 \((\boldsymbol{x}, \boldsymbol{d})\)，矩阵用粗体大写字母 \((\mathbf{X}, \mathbf{A})\)。下标 \(i\) 索引词元位置，上标 \((\ell)\) 索引 Transformer 层。集合用花体字母 \((\mathcal{D}, \mathcal{I})\)，\(\|\cdot\|\) 表示集合基数。对于词元序列 \(\boldsymbol{t} = (t_1, \dots, t_n)\)，设 \(\boldsymbol{x}^{(\ell)}(\boldsymbol{t})\) 表示其在第 \(\ell\) 层的激活，\(\boldsymbol{x}_i^{(\ell)}(\boldsymbol{t})\) 是词元 \(t_i\) 在第 \(\ell\) 层的激活，其中 \(\boldsymbol{x}_i^{(1)}(\boldsymbol{t}) = \mathrm{Embed}(t_i)\)，\(\boldsymbol{x}_i^{(L+1)}(\boldsymbol{t})\) 为最终层表示。第 \(\ell\) 层的控制向量记为 \(\boldsymbol{d}^{(\ell)}\)，对应单位向量记为 \(\hat{\boldsymbol{d}} = \boldsymbol{d}/\|\boldsymbol{d}\|\)。残差干预通过 \(\rho_{\text{steer}}(\boldsymbol{x}, \boldsymbol{d})\) 应用，\(\alpha\) 控制干预强度。

## 2 背景

### 2.1 激活控制

激活控制是指在推理时修改模型中间表示以诱导或抑制特定行为的技术。许多特征如拒绝、情感或情绪被假设由激活空间内的低维结构表示（Mikolov 等人，2013 (https://arxiv.org/html/2606.15092#bib.bib18)；Elhage 等人，2022 (https://arxiv.org/html/2606.15092#bib.bib17)；Arditi 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib21)；Bereska 和 Gavves，2024 (https://arxiv.org/html/2606.15092#bib.bib19)；Park 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib16)）。几种激活控制方法利用了这一线性表示假设，包括**激活加法**（Turner 等人，2023b (https://arxiv.org/html/2606.15092#bib.bib53)；Rimsky 等人，2024b (https://arxiv.org/html/2606.15092#bib.bib8)），它将缩放的控制向量 \(\boldsymbol{d}\) 添加到残差流激活中，形式为 \(\rho_{\text{steer}}(\boldsymbol{x}, \boldsymbol{d}) = \boldsymbol{x} + \alpha\boldsymbol{d}\)。广泛使用的控制方向估计器是**均值差**向量（Arditi 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib21)；Turner 等人，2023b (https://arxiv.org/html/2606.15092#bib.bib53)；Venhoff 等人，2025 (https://arxiv.org/html/2606.15092#bib.bib22)），它计算从两组提示提取的模型激活的均值之差，其中一组表达要通过控制诱导的目标概念，另一组不表达。设 \(\mathcal{D}_{\text{target}}\) 和 \(\mathcal{D}_{\text{source}}\) 为两个对比数据集，其中 \(\mathcal{D}_{\text{target}}\) 展现目标特征，\(\mathcal{D}_{\text{source}}\) 包含不具有该特征的对比示例。对于每个层 \(\ell\) 和词元位置 \(i\)，均值差向量为：
\[
\boldsymbol{d}_i^{(\ell)} = \frac{1}{|\mathcal{D}_{\text{target}}|} \sum_{\boldsymbol{t} \in \mathcal{D}_{\text{target}}} \boldsymbol{x}_i^{(\ell)}(\boldsymbol{t}) - \frac{1}{|\mathcal{D}_{\text{source}}|} \sum_{\boldsymbol{t} \in \mathcal{D}_{\text{source}}} \boldsymbol{x}_i^{(\ell)}(\boldsymbol{t}). \tag{1}
\]
最终控制向量 \(\boldsymbol{d}^{(\ell)}\) 从跨层和词元位置获得的候选向量集中选取。先前工作使用了多种选择策略，包括手动方向选择，通常识别干预产生最强或最可解释行为的候选向量（Arditi 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib21)；Zou 等人，2025 (https://arxiv.org/html/2606.15092#bib.bib23)），以及统计方向选择，使用定量指标，如候选方向之间的相似性（Vu 和 Nguyen，2025 (https://arxiv.org/html/2606.15092#bib.bib24)）。

### 2.2 线性表示与叠加假设

激活控制及许多其他可解释性技术的一个基本假设是，语义上有意义的概念被编码为模型表示空间中的线性方向。早期支持**线性表示假设**的证据来自词嵌入模型，其中简单的向量算术如 \(\boldsymbol{v}_{\text{king}} - \boldsymbol{v}_{\text{man}} + \boldsymbol{v}_{\text{woman}} \approx \boldsymbol{v}_{\text{queen}}\) 被证明能恢复语义和句法规律（Mikolov 等人，2013 (https://arxiv.org/html/2606.15092#bib.bib18)；Arora 等人，2018 (https://arxiv.org/html/2606.15092#bib.bib70)）。更近期的工作将这一假设扩展到 LLM，形式化了高层概念如真实性、情感、拒绝或事实属性对应于残差流中既可以被探测也可以被因果操纵的方向（Park 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib16)；Arditi 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib21)；Zou 等人，2025 (https://arxiv.org/html/2606.15092#bib.bib23)）。

然而，残差流的维度远小于模型必须表示的特征数量，这引发了关于如此多概念如何同时以不同线性方向共存的问题。**叠加假设**（Arora 等人，2018 (https://arxiv.org/html/2606.15092#bib.bib70)；Elhage 等人，2022 (https://arxiv.org/html/2606.15092#bib.bib17)；Templeton 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib71)）通过提出神经网络将比其神经元更多的特征压缩进激活空间，将其编码为重叠的非正交方向，从而解决了这一问题。稀疏激活的特征可以共享维度且预期干扰较低，从而产生多语义神经元（Elhage 等人，2022 (https://arxiv.org/html/2606.15092#bib.bib17)；Bereska 和 Gavves，2024 (https://arxiv.org/html/2606.15092#bib.bib19)）。这一观点进一步被稀疏自编码器支持，它们从多语义激活中提取出大量可解释的、近似单语义方向的字典（Templeton 等人，2024 (https://arxiv.org/html/2606.15092#bib.bib71)；Bayat 等人，2025 (https://arxiv.org/html/2606.15092#bib.bib66)）。然而，越来越多的证据表明它们往往不如线性基线（Kantamneni 等人，2025 (https://arxiv.org/html/2606.15092#bib.bib72)），并且作为完整解决方案仍有不足（Pacela 等人，2026 (https://arxiv.org/html/2606.15092#bib.bib73)）。

## 3 在提升特征空间中的激活控制

面向语言模型激活引导的高维随机投影

相似文章

你的LLM何时可引导？

你的LLM何时可引导？

角度-范数分解下的激活转向几何解释

想要更好的合成数据？引导它：用于低资源语言生成的激活引导

SALSA：通过学习的引导激活向量实现语音感知LLM的自适应

提交意见反馈