大型语言模型的非线性干预
摘要
本文提出了一种大型语言模型非线性干预的通用公式,超越了线性表示假说,能够操控沿非线性流形编码的特征,并通过拒绝规避引导验证了该方法。
arXiv:2605.14749v1 公告类型: new
摘要:干预是理解和分析大型语言模型内部表示的最具代表性和广泛使用的方法之一。然而,现有的干预方法局限于基于线性表示假说的线性干预,无法触及沿非线性流形编码的特征。在这项工作中,我们引入了一种干预的通用公式,自然地扩展到非线性表示的特征,同时结合一个学习过程,进一步实现对缺乏直接输出签名的隐式特征的干预。我们在拒绝规避引导上验证了我们的框架,通过干预控制拒绝的非线性特征,该框架比线性基线更精确地引导模型。
查看缓存全文
缓存时间: 2026/05/15 06:23
# 大型语言模型的非线性干预
Source: https://arxiv.org/html/2605.14749
###### 摘要
干预是理解大型语言模型内部表示最具有代表性且广泛应用的方法之一。然而,现有干预方法局限于基于线性表示假设的线性干预,无法触及沿着非线性流形编码的特征。本文提出一种通用的干预公式,自然地扩展到非线性表示的特征,并结合一种学习过程,进一步实现对缺乏直接输出签名的*隐式*特征进行干预。我们在拒绝绕过引导任务上验证了我们的框架,通过干预一个支配拒绝的非线性特征,其引导模型的精确度优于线性基线。
Machine Learning, ICML
## 1引言
干预是理解大型语言模型内部表示的核心工具。通过在推理过程中修改模型的内部激活并观察输出结果的变化,干预提供了将具体组件与模型行为关联起来的因果证据\(Vig et al.,2020 (https://arxiv.org/html/2605.14749#bib.bib21); Meng et al.,2022 (https://arxiv.org/html/2605.14749#bib.bib20); Geiger et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib16)\)。通过干预,我们可以理解可解释特征在模型隐藏状态中的表示方式\(Huang et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib9)\),并借此有效控制引导那些仅靠提示难以应对的大型语言模型行为,例如回应风格\(Turner et al.,2025 (https://arxiv.org/html/2605.14749#bib.bib23)\)、幻觉\(Li et al.,2023 (https://arxiv.org/html/2605.14749#bib.bib12)\)和拒绝\(Arditi et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib13)\)。
现有大多数针对此类特征的干预方法都是线性的:它们通过在激活空间中添加或移除固定方向来修改隐藏状态\(Li et al.,2023 (https://arxiv.org/html/2605.14749#bib.bib12); Arditi et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib13)\)。这种设计基于线性表示假设,该假设认为可解释概念在模型的表示空间中编码为方向\(Mikolov et al.,2013 (https://arxiv.org/html/2605.14749#bib.bib10); Park et al.,2023 (https://arxiv.org/html/2605.14749#bib.bib11)\)。然而,近期研究表明,某些概念则沿着非线性流形表示——例如,一周中的各天组织成圆形结构\(Engels et al.,2025 (https://arxiv.org/html/2605.14749#bib.bib14)\),以及用于执行计数的几何结构\(Gurnee et al.,2025 (https://arxiv.org/html/2605.14749#bib.bib24)\)。由于线性干预本质上只能操控编码为方向的特征,因此它们无法触及这类非线性表示的结构。
为了克服这一局限,我们提出了一种通用的非线性干预公式。我们通过将底层线性变换替换为可逆的非线性特征映射来推广线性干预。此外,我们还提出了一种通过*交换干预*\(Geiger et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib16)\)学习该映射的程序,并附带一种损失设计,将该程序扩展到*隐式*特征。
我们将该框架实例化于拒绝绕过引导任务\(Arditi et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib13); Wollschläger et al.,2025 (https://arxiv.org/html/2605.14749#bib.bib17)\),这是一个代表性的隐式特征干预任务。我们的非线性干预在编辑激活时,仅修改极少量的隐藏状态位置,便达到了与强线性基线相当或更优的引导效果。进一步分析表明,这一优势源于一个支配拒绝的真正非线性特征映射,该映射主要存在于模型的中间层。
我们的工作有三项贡献。首先,我们提出了一个通用的非线性干预公式,它涵盖了现有线性干预,并自然地扩展到沿非线性流形编码的特征。第二,我们引入了一种基于交换干预的非线性特征映射学习程序,并附带一种损失设计,进一步支持学习那些不体现在模型输出中的*隐式*特征。第三,我们通过实验将我们的框架应用于拒绝绕过引导,表明对支配拒绝的非线性特征进行干预,能够比线性基线更精确地引导模型。代码可在https://anonymous.4open.science/r/nonlinear-intervention-77AC/获取。
## 2非线性干预的通用公式
### 2.1线性干预作为基变换
在推理时干预语言模型M\\mathcal\{M\}的一种常见方法是在其表示空间中识别*线性特征方向*,并沿着它们扰动隐藏状态。给定标准正交的特征方向\{vi\}i=1k⊂Rd\\\{\\mathbf\{v\}\_\{i\}\\\}\_\{i=1\}^\{k\}\\subset\\mathbb\{R\}^\{d\}及相应的标量系数\{αi\}i=1k\\\{\\alpha\_\{i\}\\\}\_\{i=1\}^\{k\},这种线性干预在选定位置将隐藏状态h∈Rd\\mathbf\{h\}\\in\\mathbb\{R\}^\{d\}修改为
h←h+∑i=1kαivi。\\mathbf\{h\}\\;\\leftarrow\\;\\mathbf\{h\}+\\sum\_\{i=1\}^\{k\}\\alpha\_\{i\}\\mathbf\{v\}\_\{i\}\。\(1\)
公式(1)可以等价地看作一个基变换。设W∈Rd×dW\\in\\mathbb\{R\}^\{d\\times d\}是一个正交矩阵,将表示空间映射到一个*线性特征空间*,满足W⊤ei=viW^\{\\top\}\\mathbf\{e\}\_\{i\}=\\mathbf\{v\}\_\{i\},其中\{ei\}i=1d\\\{\\mathbf\{e\}\_\{i\}\\\}\_\{i=1\}^\{d\}是Rd\\mathbb\{R\}^\{d\}的标准基。则WhW\\mathbf\{h\}的每个坐标就是h\\mathbf\{h\}处某个特征的激活值,公式(1)可以重写为
h←W−1\(Wh+∑i=1kαiei\),\\mathbf\{h\}\\;\\leftarrow\\;W^\{\-1\}\\left(W\\mathbf\{h\}+\\sum\_\{i=1\}^\{k\}\\alpha\_\{i\}\\mathbf\{e\}\_\{i\}\\right\),\(2\)
即,WW将h\\mathbf\{h\}映射到特征空间,干预沿着其特征轴扰动得到的特征坐标,W−1W^\{\-1\}再将修改后的特征映射回原始表示空间。
### 2.2通过可逆特征映射实现非线性干预
线性干预只能操控那些具有线性编码的特征,但并非所有M\\mathcal\{M\}表示空间中的可解释特征都沿着线性方向排列\(Engels et al.,2025 (https://arxiv.org/html/2605.14749#bib.bib14); Kantamneni and Tegmark,2025 (https://arxiv.org/html/2605.14749#bib.bib15)\)。为了容纳非线性特征,我们将WW替换为一个可逆的*非线性特征映射*fθ:Rd→Rdf\_\{\\theta\}:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{d\},由θ\\theta参数化。通过与公式(2)直接类比,非线性干预的形式为
h←fθ−1\(fθ\(h\)+∑i=1kαiei\)。\\mathbf\{h\}\\;\\leftarrow\\;f\_\{\\theta\}^\{\-1\}\\left(f\_\{\\theta\}(\\mathbf\{h\})+\\sum\_\{i=1\}^\{k\}\\alpha\_\{i\}\\mathbf\{e\}\_\{i\}\\right\)。\(3\)
fθf\_\{\\theta\}将h\\mathbf\{h\}映射到其特征空间坐标;干预通过系数\{αi\}\\\{\\alpha\_\{i\}\\\}沿着这些坐标轴进行扰动;fθ−1f\_\{\\theta\}^\{\-1\}再将修改后的特征映射回原始的隐藏状态空间。当fθf\_\{\\theta\}被限制为线性映射时,公式(2)即作为特例被恢复。
## 3通过交换干预学习fθf\_\{\\theta\}
### 3.1通过交换干预的训练目标
本节描述如何学习与目标特征F\\mathcal\{F\}相关联的非线性特征映射fθf\_\{\\theta\}。我们通过*交换干预*\(Geiger et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib16)\)训练fθf\_\{\\theta\},该方法通过将F\\mathcal\{F\}的值在来自对照输入的隐藏状态之间转移,提供对F\\mathcal\{F\}的因果监督。我们首先准备两组提示集:一组正例集D+\=\{xi+\}i=1N\\mathcal\{D\}^\{\+\}=\\\{x\_\{i\}^\{\+\}\\\}\_\{i=1\}^\{N\},包含展现特征F\\mathcal\{F\}的输入;一组负例集D−=\{xi−\}i=1N\\mathcal\{D\}^\{\-\}=\\\{x\_\{i\}^\{\-\}\\\}\_\{i=1\}^\{N\},包含不展现特征F\\mathcal\{F\}的输入。对于每一对\(x−,x+\)∈D−×D+\(x^\{\-\},x^\{\+\}\)\\in\\mathcal\{D\}^\{\-\}\\times\\mathcal\{D\}^\{\+\},我们将两个输入前向传播至干预位置,得到隐藏状态h−,h+∈Rd\\mathbf\{h\}^\{\-\},\\mathbf\{h\}^\{\+\}\\in\\mathbb\{R\}^\{d\}。*交换干预*将fθ\(h−\)f\_\{\\theta\}(\\mathbf\{h\}^\{\-\})中的目标坐标替换为fθ\(h+\)f\_\{\\theta\}(\\mathbf\{h\}^\{\+\})中的对应坐标:
h−←fθ−1\(fθ\(h−\)+∑i=1kαiei\),\\mathbf\{h\}^\{\-\}\\;\\leftarrow\\;f\_\{\\theta\}^\{\-1\}\\left(f\_\{\\theta\}(\\mathbf\{h\}^\{\-\})+\\sum\_\{i=1\}^\{k\}\\alpha\_\{i\}\\mathbf\{e\}\_\{i\}\\right\),\(4\)
其中αi=\(fθ\(h+\)−fθ\(h−\)\)i\\alpha\_\{i\}=\\big(f\_\{\\theta\}(\\mathbf\{h\}^\{\+\})-f\_\{\\theta\}(\\mathbf\{h\}^\{\-\})\\big)\_\{i\}。这就恢复了公式(3),且系数固定为x+x^\{\+\}的值。令Mint\(x−,x+;θ\)\\mathcal\{M\}\_\{\\text\{int\}\}(x^\{\-\},x^\{\+\};\\,\\theta\)表示M\\mathcal\{M\}经过干预后的前向传播。从(x−,x+)∼D−×D+(x^\{\-\},x^\{\+\})\\sim\\mathcal\{D\}^\{\-\}\\times\\mathcal\{D\}^\{\+\}中采样配对,并冻结M\\mathcal\{M\},我们训练θ\\theta以最小化
L\(θ\)=E\(x−,x+\)\[l\(Mint\(x−,x+;θ\)\)\],\\mathcal\{L\}(\\theta)\\;=\\;\\mathbb\{E\}\_\{\(x^\{\-\},\\,x^\{\+\}\)\}\\left\[\\,\\ell\\left(\\mathcal\{M\}\_\{\\text\{int\}\}(x^\{\-\},x^\{\+\};\\,\\theta)\\right)\\,\\right\],\(5\)
其中l\\ell的设计使得其最小化让Mint\\mathcal\{M\}\_\{\\text\{int\}\}展现出特征F\\mathcal\{F\}。
### 3.2针对隐式特征的损失设计
当F\\mathcal\{F\}具有直接输出签名时,l\\ell可以在M\\mathcal\{M\}的输出分布上定义,以鼓励或抑制特定标记。对于那些不在输出中体现的隐式特征,例如拒绝或风格转变,则没有这种用于训练fθf\_\{\\theta\}的直接目标,这使得损失设计变得非平凡。我们提出一种自监督风格的损失,仅凭数据学习fθf\_\{\\theta\},通过对许多与F\\mathcal\{F\}相关的特征施加因果影响来实现。
对于每个因果位于干预位置下游的(层、标记位置)ss,我们提取一个特征方向vs∈Rdv\_\{s\}\\in\\mathbb\{R\}^\{d\},作为D+\\mathcal\{D\}^\{\+\}与D−\\mathcal\{D\}^\{\-\}上未干预激活hs\(x\)h\_\{s\}(x)的类别均值差。向vsv\_\{s\}投影因此与F\\mathcal\{F\}相关。我们仅保留那些vs⊤hs\(x\)v\_\{s\}^\{\\top\}h\_\{s\}(x)以高于阈值τ\\tau的AUC值区分x+x^\{\+\}和x−x^\{\-\}的位置,并将其收集到S\\mathcal\{S\}中。vsv\_\{s\}和S\\mathcal\{S\}均在训练前依据D±\\mathcal\{D\}^\{\\pm\}一次性计算并保持固定。
令hsinth\_\{s\}^\{\\text\{int\}\}表示在干预后的前向传播中位于ss处的隐藏状态,μs\+=Ex∼D\+\[vs⊤hs\(x\)\]\\mu\_\{s\}^\{\+\}=\\mathbb\{E\}\_\{x\\sim\\mathcal\{D\}^\{\+\}\}\[\\,v\_\{s\}^\{\\top\}h\_\{s\}(x)\\\]为x+x^\{\+\}的平均投影值,我们将公式(5)中的l\\ell取为
l\(Mint\)=∑s∈Smax\(0,μs\+−vs⊤hsint\)。\\ell(\\mathcal\{M\}\_\{\\text\{int\}\})\\;=\\;\\sum\_\{s\\in\\mathcal\{S\}\\}\\max\\big(\\,0,\\;\\;\\mu\_\{s\}^\{\+\}-v\_\{s\}^\{\\top\}h\_\{s\}^\{\\text\{int\}\}\\,\\big)。\(6\)
铰链形式一旦某位置的投影达到μs\+\\mu\_\{s\}^\{\+\}即饱和,防止过拟合到任何单个位置。因此最小化L\\mathcal\{L\}驱动fθf\_\{\\theta\}去发现一个特征,其干预能同时因果性地对齐许多与F\\mathcal\{F\}相关的组件。
这种具体实例化是一种自然的选择。方向提取器、位置选择准则和代理损失并非固定不变;它们都可以在公式(5)的框架内进行替换。
## 4实验
### 4.1设置
我们在安全对齐的大型语言模型的拒绝绕过引导任务上评估非线性干预,这是一个代表性的引导任务,用以实证验证我们提出的非线性干预框架。我们将该设置作为一个隐式特征干预任务:目标特征F\\mathcal\{F\}是*绕过拒绝*,它并不显式体现于模型的任何特定标记输出中。
#### 模型与数据。
我们在Llama\-3\-8B\-Instruct\(Grattafiori et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib29)\)和Qwen2\.5\-7B\-Instruct\(Qwen et al.,2025 (https://arxiv.org/html/2605.14749#bib.bib30)\)上评估所有方法,模型权重全程冻结。我们使用2,000条无害Alpaca提示\(Taori et al.,2023 (https://arxiv.org/html/2605.14749#bib.bib28)\)构建D+\\mathcal\{D\}^\{\+\},这些提示能引发模型的顺从回应;使用2,000条有害SALAD\-Bench提示\(Li et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib27)\)构建D−\\mathcal\{D\}^\{\-\},这些提示会引发拒绝。
#### 评估。
我们从两个维度定量评估干预质量:被干预模型展现目标特征F\\mathcal\{F\}的*强度*,以及为了实现该强度我们对模型进行的*扰动程度*。为了衡量被干预模型是否对有害提示产生了真正有意义的回应,而不仅仅是避免了表面性的拒绝,我们使用StrongREJECT评分\(Souly et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib26)\)。StrongREJECT针对313条有害提示返回一个\[0,1\]\]0,1\]区间内的分数,由基于LLM的评估器计算。为了衡量干预的程度,我们记录施加于模型的总干预幅度。具体而言,对于每个被编辑的位置,我们计算干预前隐藏状态hh与干预后隐藏状态h′h^\{\\prime\}之间的l2\\ell\_\{2\}距离,并求和:
1\|Dtest\|∑x∈Dtest∑s∈Ex‖hs′\(x\)−hs\(x\)‖2,\\frac\{1\}\{\|\\mathcal\{D\}\_\{\\mathrm\{test\}\}\|\}\\sum\_\{x\\in\\mathcal\{D\}\_\{\\mathrm\{test\}\}\}\\sum\_\{s\\in\\mathcal\{E\}\_\{x\}\}\\|h^\{\\prime\}\_\{s\}(x)-h\_\{s\}(x)\\\|\_\{2\},
其中Ex\\mathcal\{E\}\_\{x\}是该方法在生成对提示xx的回应时所编辑的位置集合。
#### 基线。
作为基线,我们比较两种代表性的用于拒绝引导的线性干预方法:*均值之差*\(DIM\)\(Arditi et al.,2024 (https://arxiv.org/html/2605.14749#bib.bib13)\)和*拒绝方向优化*\(RDO\)\(Wollschläger et al.,2025 (https://arxiv.org/html/2605.14749#bib.bib17)\)。DIM从类别均值激活差异中提取拒绝方向。RDO通过消除、添加和保持损失来学习拒绝方向。两种方法均可通过两种干预方案进行评估:*消融*,即在每个标记和每个模块输出处移除拒绝方向;以及*激活添加*,即在指定层对所有标记添加由固定系数α\\alpha缩放的方向。
#### 我们的方法。
我们将fθf\_\{\\theta\}实例化为i\-ResNet\(Behrmann et al.,2019 (https://arxiv.org/html/2605.14749#bib.bib25)\),一种可逆的非线性神经网络。我们使用k=1k=1以便与一维线性基线直接比较。我们为每个模型启发式地选择一个干预位置。在推理时,为避免需要无害提示x+x^\{\+相似文章
论大语言模型的固有可解释性:设计原则和架构调查
一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。
不破坏的引导:基于机制的离散扩散语言模型干预
本文介绍了一种新颖的自适应调度器,用于利用稀疏自编码器引导离散扩散语言模型,结果表明,基于特定属性提交时机进行针对性干预,比均匀方法能提升控制质量和强度。
大语言模型的维度级意图保真度评估:来自结构化提示消融的证据
本文介绍了一种使用结构化提示消融来测量大语言模型意图保真度的维度级评估方法。
解构并引导大型语言模型中的功能性元认知
本研究探讨了大型语言模型中的功能性元认知,证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态,展示了对推理行为、冗长度及安全响应的因果控制。
以人为本的大型语言模型的反思与新方向
本文提出了一种以人为本的大型语言模型(HCLLMs)框架,融合人机交互(HCI)与自然语言处理(NLP)的视角,旨在模型开发的全生命周期中优先保障人类价值观。