角度-范数分解下的激活转向几何解释

arXiv cs.AI 论文

摘要

本文通过将干预分解为角度和径向分量,分析了语言模型中的线性激活转向。研究发现概念主要编码在角度结构中,但范数调整对稳定性至关重要,支持球形转向方法的同时表明加性系数混淆了几何特性。

arXiv:2606.06735v1 Announce Type: new 摘要:线性激活转向已成为一种简单且经验有效的控制语言模型行为的方法。近期,球形转向范式被提出以解决加性干预的局限性,其动机常基于隐状态范数不携带概念相关信息的假设。在本工作中,我们通过一项旨在解耦角度和径向分量作用的受控实证研究重新审视了这一假设。我们表明,转向方法的主要差异在于它们如何耦合两种几何效应:改变词元与概念方向的角度对齐以及改变其隐状态范数。在七个语言模型上,我们发现概念主要表示在角度结构中,支持了球形方法的动机,但范数对于转向的稳定性和下游效应仍然重要。我们的结果解释了为何具有相似概念级效果的干预可能表现不同,并建议激活转向应通过可解释的干预角度和径向分量进行参数化,而非通过单一加性系数混淆这两种效应。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:13

# 通过角度–范数分解对激活引导的几何解释 来源: https://arxiv.org/html/2606.06735 Georgii Aparin 华为诺亚方舟实验室 aparingm@gmail\.com &Tatiana Gaintseva 伦敦玛丽女王大学 t\.gaintseva@qmul\.ac\.uk ###### 摘要 线性激活引导作为一种简单且经验有效的语言模型行为控制方法已获得广泛关注。近来,由于通常假设隐藏状态范数不携带与概念相关的信息,研究者提出了球形引导范式来应对加性干预的局限性。在这项工作中,我们通过一项旨在分离角度分量和径向分量作用的受控实证研究,重新审视了这一假设。我们发现,引导方法的主要区别在于它们如何耦合两种几何效应:改变令牌与概念方向的角度对齐,以及改变其隐藏状态范数。在七个语言模型上,我们发现概念主要在角度结构中表示,这支持了球形方法的动机,但范数对引导的稳定性和下游效果仍然很重要。我们的结果解释了为什么具有相似概念层面效果的干预可能表现不同,并表明激活引导应通过干预中可解释的角度和径向分量参数化,而不是通过一个纠缠这两种效应的单一加性系数。 通过角度–范数分解对激活引导的几何解释 Georgii Aparin 华为诺亚方舟实验室 aparingm@gmail\.com Tatiana Gaintseva 伦敦玛丽女王大学 t\.gaintseva@qmul\.ac\.uk ## 1 引言 线性激活引导已成为一种广泛使用的、通过对中间表示进行干预来控制语言模型行为的方法 (Zou et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib5); Turner et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib4); Panickssery et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib2))。给定一个与目标概念相关的引导方向,标准方法会以标量强度将该方向加到隐藏状态上。这些干预操作简单、无需训练,并且在真实性、情感、毒性、拒绝等行为上效果显著 (Zou et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib5); Turner et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib4); Panickssery et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib2); Li et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib3); Rimsky et al., 2024 (https://arxiv.org/html/2606.06735#bib.bib1); Arditi et al., 2024 (https://arxiv.org/html/2606.06735#bib.bib29))。然而,加性引导将激活空间视作概念控制是自然线性的:增加引导系数被认为会使表示朝着有意义的的行为方向移动。这模糊了干预的几何特性,因为添加一个向量会同时改变隐藏状态的方向和范数 (Park et al., 2024 (https://arxiv.org/html/2606.06735#bib.bib6); Vu and Nguyen, 2025 (https://arxiv.org/html/2606.06735#bib.bib7); You et al., 2026 (https://arxiv.org/html/2606.06735#bib.bib8))。 参考标题 图 1: SN 中范数缩放的效果。左图显示下游任务指标变化,右图显示困惑度比值。增加 β\\beta 对语义任务指标影响很小,但在高 γ\\gamma 下显著降低了困惑度,表明范数主要控制生成的稳定性。 参考标题 图 2: 每个 β\\beta 值在折叠中获得最佳困惑度或任务指标的折叠比例。在 γ=0\.7\\gamma=0\.7 时,β=1\.2\\beta=1\.2 在所有评估折叠中获得了最低的困惑度,表明对于高强度球形引导,严格的范数保持并不总是最稳定的选择。 最近的角度和球形引导方法提供了一种替代方案:它们不是平移激活,而是将隐藏状态向概念方向旋转,通常同时保持范数不变 (Vu and Nguyen, 2025 (https://arxiv.org/html/2606.06735#bib.bib7); You et al., 2026 (https://arxiv.org/html/2606.06735#bib.bib8))。这是基于概念信息主要存在于角度中的假设,而范数保持则维护生成质量和输入相关性。尽管球形方法可以比原始的加性引导提高稳定性,但其基本假设仍未得到充分检验:概念真的主要存在于激活方向中吗?严格的范数保持是否总是正确的引导约束? 我们通过一项对激活引导方法的可控几何比较来研究这些问题。我们将每个隐藏状态分解为一个角度分量(决定与概念方向的对齐程度)和一个径向分量(由其范数表示)。这让我们能够比较六种引导方法,它们的不同之处在于是否强制一个目标角度概念得分、是否保留原始范数,或者是否允许范数变化。 我们的实验表明,角度假设基本上是正确的。在七个语言模型和四个概念数据集上,使用归一化隐藏状态训练的探针与使用原始隐藏状态训练的探针非常接近,而仅使用范数的探针则仍接近随机水平。因此,对于我们所研究的概念,概念判别信息主要编码在激活方向而非大小中。 然而,范数并非无关紧要。尽管激活大小不直接编码目标概念,但它在生成稳定性和能力保持中起着重要作用。在高角度强度下,严格的范数保持可能导致困惑度大幅增加和能力退化。相反,那些达到相同角度目标但允许适度范数增加的方法,通常在保持流畅性和下游性能方面更好(图 1 (https://arxiv.org/html/2606.06735#S1.F1),2 (https://arxiv.org/html/2606.06735#S1.F2))。这得出一个比单独的加性或球形引导所暗示的更细致入微的结论:角度控制解释了语义引导,但径向缩放可以决定干预在高强度下是否仍然可用。 我们推测隐藏状态范数部分控制着某个令牌可用的有效表示容量。在强引导下,将目标概念强制进入原始的固定半径可能会为其他上下文相关信息留下更少的容量。适度的范数增加可以缓解这种压力,允许模型表达所需的概念方向,同时为其他特征保留足够的表示规模。 总体而言,我们的发现表明,激活引导既不应被视为单参数加性干预,也不应被视为具有固定范数的纯角度操作。相反,引导最好被理解为由角度和半径共同控制的双参数几何干预:角度控制预期的语义效果,而半径影响生成稳定性、输入相关性和能力保持。这种视角解释了为什么具有相似概念层面效果的方法行为可能不同,并为未来引导方法提供了一个更具可解释性的设计空间。 我们的贡献如下: - •我们将激活引导形式化为一个双分量几何干预,它将角度概念控制与径向范数修改分开。 - •我们在一个通用框架下比较了六种引导方法,区分了它们是否保持范数以及是否强制每个令牌的目标概念得分。 - •我们在七个语言模型和四个概念数据集上实证检验了角度编码假设,发现概念信息主要编码在激活方向中。 - •我们展示了范数在引导稳定性中的关键作用:在高引导强度下,适度的范数增加可以在基本不改变语义引导效果的情况下,将困惑度降低多达 1\.8×1\.8\\times。 ## 2 相关工作 **激活引导与表示工程。** 激活引导通过在推理时修改中间激活来控制模型行为,无需更新权重。大多数方法在隐藏状态空间中找出与目标行为相关的方向,并在生成过程中沿此方向进行干预。ITI、ActAdd、CAA 和表示工程已被用于影响真实性、情感、主题、拒绝、毒性以及其他高层属性 (Li et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib3); Turner et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib4); Panickssery et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib2); Zou et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib5); Rimsky et al., 2024 (https://arxiv.org/html/2606.06735#bib.bib1); Arditi et al., 2024 (https://arxiv.org/html/2606.06735#bib.bib29))。这些方法简单且无需训练,但它们常用的加性强度几何意义不明确:改变它既会改变隐藏状态与引导方向的对齐程度,也会改变其范数。我们的工作通过将引导分解为角度分量和径向分量,直接研究这种模糊性。 **线性概念表示。** 激活引导与高层模型属性在激活空间中线性表示的假设密切相关。根据这种观点,隐藏状态空间中的方向对应概念或行为,这些方向上的投影可以作为概念得分 (Park et al., 2024 (https://arxiv.org/html/2606.06735#bib.bib6); Zou et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib5))。这推动了对比方向提取、探针以及基于方向的干预。然而,找出一个有用的概念方向并不能决定如何沿此方向进行干预。加性引导同时改变了角度对齐和表示范数,而这两者可能扮演不同的角色。因此,我们区分了两个常常被混淆的问题:概念信息是否编码在激活方向中,以及范数变化如何影响引导结果。 **角度与球形引导。** 最近的工作提出了加性引导的角度或球形替代方案。角度引导在行为相关的子空间中旋转激活 (Vu and Nguyen, 2025 (https://arxiv.org/html/2606.06735#bib.bib7)),而球形引导则执行朝向目标方向的、保持范数的测地旋转 (You et al., 2026 (https://arxiv.org/html/2606.06735#bib.bib8))。这些方法的动机是认为概念信息主要是角度性的,并且保持激活范数有助于维护生成质量。我们的工作对这些假设进行了受控检验:我们测试了概念是否确实主要编码在方向中,以及在固定角度控制后,严格的范数保持是否仍然可取。与侧重于特定引导规则的先前工作不同,我们在一个单一的角度–径向框架中分析了加性、重归一化、匹配、角度、球形和范数缩放这些干预方法。 **自适应与令牌级引导。** 一些方法表明单一全局引导系数是不够的。ITI 选择注意力头层面的干预点 (Li et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib3));表示工程跨层和跨行为研究控制方向 (Zou et al., 2023 (https://arxiv.org/html/2606.06735#bib.bib5));选择性的或自适应的引导方法在各层、各令牌或样本间变化干预强度以减少副作用 (Dang and Ngo, 2026 (https://arxiv.org/html/2606.06735#bib.bib9))。我们的结果阐明了这种自适应应该控制什么:达到的角度概念得分和径向范数尺度。这产生了一个更具可解释性的设计空间,其中不同方法的差异不仅在于平均引导强度,还在于每个令牌的角度精度和范数处理。 **我们的贡献。** 先前工作表明激活方向可以控制行为,而最近的球形方法表明考虑范数的干预可以提高稳定性。我们探究哪个几何分量负责概念控制,哪个影响稳定性。我们的实验表明,所评估的概念主要编码在激活方向中,支持了球形引导的动机。同时,范数不仅仅是噪声变化:即使在角度概念得分固定时,适度的径向变化也会显著影响困惑度和能力保持。因此,我们将激活引导重新定义为对角度和半径的双参数干预,而不是对加性强度的一维选择或对加性方法与保持范数方法的二元选择。 ## 3 方法论 我们将激活引导研究为对语言模型残差流隐藏状态的几何干预。给定一个在固定 Transformer 层处的隐藏状态 x∈Rdx\\in\\mathbb\{R\}^\{d\} 和一个单位引导方向 ss,我们将 xx 分解为径向分量和角度分量: r=‖x‖,u=xr,r=\\\|x\\\|,\\qquad u=\\frac\{x\}\{r\},\(1\)c=⟨u,s⟩,v=u−cs‖u−cs‖\.c=\\langle u,s\\rangle,\\qquad v=\\frac\{u\-cs\}\{\\\|u\-cs\\\|\}\.\(2\)这里,rr 是隐藏状态范数,uu 是对应的单位向量,cc 是角度概念得分,vv 是正交于 ss 的单位残差方向。二维子空间 span⁡\(s,v\)\\operatorname\{span\}\(s,v\) 中的任何单位向量都可以写为 γs\+1−γ2v,\\gamma s\+\\sqrt\{1\-\\gamma^\{2\}\}\\,v,\(3\)其中 γ∈\[−1,1\]\\gamma\\in\[\-1,1\] 是目标概念得分。这种分解使得我们可以分离标准加性干预中纠缠在一起的两个引导方面:朝向概念方向的角度移动和隐藏状态大小的变化。 ### 3\.1 引导方向构建 对于每个模型和数据集,我们使用对比均值差构建一个概念方向。从一个保留的方向分割中采样 N=256N=256 个正负补全对,并提取最后一个提示令牌处的残差流激活。引导方向是正激活均值与负激活均值之间单位归一化的差: s=μ\+−μ−‖μ\+−μ−‖\.s=\\frac\{\\mu\_\{\+\}\-\\mu\_\{\-\}\}\{\\\|\\mu\_\{\+\}\-\\mu\_\{\-\}\\\|\}\.\(4\)在同一个模型-数据集-折叠单元内,所有引导方法使用相同的方向 ss,确保比较隔离的是干预的几何特性,而非方向估计的差异。 ### 3\.2 引导方法 我们比较六种引导操作,它们的不同之处在于是否保留原始范数,以及是否独立地为每个令牌设定目标概念得分。表 1 (https://arxiv.org/html/2606.06735#S3.T1) 总结了每种方法施加的几何约束。下面,我们将详细描述每种方法。 表 1: 根据是否保留原始隐藏状态范数以及是否对每个令牌强制固定的概念得分,对引导方法进行总结。 **概念激活加法 (CAA)。** 标准的加性基线应用一个固定的全局扰动: y=x\+αs\.y=x\+\\alpha s\.\(5\)α\\alpha 通常被视为一个超参数。CAA 既不保持范数,也不对每个令牌进行校准:它在所有生成步骤中应用相同的固定加法。实现的概念得分因令牌而异,取决于 xx 的初始范数和对齐程度。 **重归一化 CAA (CAA-r)。** CAA-r 应用相同的固定加性更新,然后将结果投影回原始范数: y=rx\+αs‖x\+αs‖\.y=r\\,\\frac\{x\+\\alpha s\}\{\\\|x\+\\alpha s\\\|\}\.\(6\)这隔离了事后范数保持的效果,同时保留了 CAA 的固定强度特性。CAA-r 保留了 ‖y‖=‖x‖\\\|y\\\|=\\\|x\\\|,但它不强制每个令牌的目标概念得分。 **匹配

相似文章

视觉-语言-动作模型中的闭环神经激活控制

arXiv cs.AI

提出CTRL-STEER,一种闭环框架,通过时变控制信号对视觉-语言-动作模型进行自适应引导,在无需重新训练的情况下,实现了概念调节与任务成功率之间的更好权衡。

提示-激活对偶性:通过注意力层干预改进激活引导

Hugging Face Daily Papers

本文识别出KV缓存污染是对话中激活引导的一种失败模式,并提出了GCAD方法,该方法从提示贡献中提取引导信号,并应用词元级门控来改进长程连贯性,在多轮基准上取得了显著提升。

保持专注:通过键正交投影实现激活转向

arXiv cs.CL

本文介绍了通过键正交投影进行转向(SKOP)方法,该方法通过防止注意力重路由来控制大语言模型(LLM)的行为,从而在保持转向效果的同时降低效用下降。

受控LLM激活的非满射性

Hugging Face Daily Papers

本文证明,LLM中的激活引导产生的内部状态无法通过任何文本提示复制,从而在白盒可控性和黑盒提示之间建立了形式上的区分。

解构并引导大型语言模型中的功能性元认知

arXiv cs.CL

本研究探讨了大型语言模型中的功能性元认知,证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态,展示了对推理行为、冗长度及安全响应的因果控制。