何时Rank-1引导是廉价的？几何、粒度和预算搜索

arXiv cs.LG 2026/05/19 04:00 论文

摘要

本文研究了秩1激活引导在何时有效且具成本效益，提出了几何引导搜索和粒度的概念来解释变异性，并引入了GRACE框架用于高效的大语言模型控制。

arXiv:2605.16362v1 公告类型：新摘要：激活引导提供了一种轻量级的方式来控制大语言模型（LLM）而无需重新训练，但其效果在不同概念之间差异显著。以往的研究通常将这种变异性解读为许多概念并非由单一的引导方向所捕获。我们认为，这种变异性很大程度上反映了搜索难度：一种有用的秩1干预往往存在，但找到它可能成本高昂。我们将秩1干预形式化为一个关于干预层和系数的预算约束优化问题。跨概念和模型系列，提示边界方向性对齐能预测有效干预发生的位置，从而实现几何引导搜索，在显著减少评估次数的情况下达到高效用，平均将恢复最佳效用95%所需的试验次数降低39.8%（在三个模型系列上）。为了解释为何即使改进搜索后某些概念仍然成本高昂，我们引入了*概念粒度*（concept granularity）这一指标，用于衡量跨对比上下文的异质性方向。粒度能区分两种概念：其差异向量共享稳定全局方向的概念，以及提示在每个输入内部局部一致但效用最大化方向在各输入间系统旋转的概念。较高的粒度与较慢的收敛速度和较低的最佳实现效用相关（与达到95%效用所需试验次数的Pearson相关系数$r=0.44$，与最佳实现效用的相关系数$r=-0.46$，两者均为$p<0.001$）。我们提出了*GRACE*（粒度与表征感知概念工程框架），利用激活几何来诊断引导困难的主要来源，选择合适的补救措施，并高效分配优化努力。我们的结果将视角从“*秩1何时失败？*”转变为“*秩1何时廉价且稳定？*”，使激活几何从描述性工具转变为LLM控制的可行先验。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:42

# 何时秩1转向是经济的？几何、粒度与预算受限搜索 来源：https://arxiv.org/html/2605.16362 ###### 摘要 激活转向提供了一种轻量级的方法来控制大型语言模型而无需重新训练，但其效果在不同概念间差异显著。先前的研究通常将这种变异性解释为许多概念未能被单一转向方向很好地捕捉的证据。我们认为，这种变异性在很大程度上反映了搜索难度：一个有用的秩1干预通常存在，但找到它的代价可能很高。我们将秩1转向形式化为一个关于干预层和系数的预算受限优化问题。在多个概念和模型家族中，提示边界方向对齐预测了有效干预可能发生的位置，从而能够进行几何引导的搜索，以更少的评估次数达到高效用，在三个模型家族中平均将恢复最佳发现效用95%所需的试验次数减少了39.8%。为了解释为什么即使采用更好的搜索，某些概念仍然代价高昂，我们引入了*概念粒度*，即对比上下文中方向异质性的度量。粒度区分了那些差异向量共享稳定全局方向的概念，与那些在每个输入内提示局部一致但效用最大化方向在输入间系统性旋转的概念。较高的粒度与较慢的收敛速度和较低的最佳发现转向性能相关（与达到95%效用的试验次数，Pearson \(r=0.44\)，\(p<0.001\)；与最佳发现效用，\(r=-0.46\)，\(p<0.001\)）。这些观察结果表明了一种实用的工作流程，而非单一的通用向量构建规则。因此，我们提出了GRACE，一个粒度和表示感知的概念工程框架，它利用激活几何来诊断转向困难的主要来源，选择合适的补救措施，并更有效地分配优化努力。我们的结果将激活转向的讨论框架从“秩1何时失败？”转变为“秩1何时廉价且稳定？”，并将激活几何从描述性工具转变为LLM控制的可行先验。 ## 1 引言 对大型语言模型（LLM）的可靠控制和监控对于安全部署和实际应用越来越重要[zhang2022opt, achiam2023gpt, turner2023steering, rimskySteeringLlama22024]。一个突出的最新方法是概念转向：在残差流中识别与人类定义的目标行为相关的方向，然后在推理时沿着该方向进行干预以放大或抑制该行为[turner2023steering, rimskySteeringLlama22024, chen2025persona]。相同的方向也可用于基于激活的检测，为仅监控生成的文本提供补充信号[patel2025activation]。概念向量很有吸引力，因为它们轻量、可解释且无需重新训练。然而在实践中，其效果高度不均。有些行为易于转向或检测，而另一些则脆弱、对干预层和系数敏感，或无法匹配提示和其他基线[wu2025axbench, braun2025understandingunreliabilitysteeringvectors, bas2026actuallysteermultibehaviorstudy]。这种变异性通常被表述为表示可行性的问题：一个行为能否被激活空间中的单一方向所捕捉？我们的结果表明，这往往不是最相关的问题。更有信息量的问题是*恢复一个稳定干预的代价有多大*。越来越多的研究表明秩1转向通常是可行的[rimskySteeringLlama22024, wu2025improvedrepresentationsteeringlanguage, stolfo2025improving, sinii-etal-2025-steering]。然而，有些概念拥有宽广、宽容的优化景观，其中许多近似的层和系数选择都表现良好。另一些则需要狭窄、特定于概念的调优，并且当干预稍有偏差时性能就迅速下降。本文认为，实际秩1转向中的核心障碍通常并非有用方向的存在性，而是找到它的*优化难度*。我们展示激活几何有助于解释和减少这种优化难度。不同概念的对比激活在特定层上表现出高度独特的方向结构。特别是，我们发现提示边界处对比差异的方向一致性预测了网络中可能产生有用转向方向的位置。这一观察质疑了文献中一种常见的评估实践：为所有概念固定一个或少数几个层[wu2025axbench, wu2025improvedrepresentationsteeringlanguage, braun2025understandingunreliabilitysteeringvectors]。相反，有效的干预区域高度依赖于概念，而激活几何为搜索位置提供了强有力的先验。基于此，我们将秩1转向表述为一个关于干预层和系数的*预算受限优化问题*，并表明几何引导的贝叶斯优化大幅降低了恢复高效用干预所需的搜索成本（图1 (https://arxiv.org/html/2605.16362#S1.F1)）。 参见图注 图1：将搜索限制在按提示边界对齐度排序的前\(k\)个层，在固定预算下加速收敛，同时基本保留最终发现的最佳效用。 变异的第二个来源来自转向向量本身。标准的对比构建方法将来自许多提示和上下文的差异平均为单一方向。当这些差异全局对齐时，这种方法效果最好。因此，我们引入了*概念粒度*，即对比上下文中方向异质性的度量。低粒度概念产生大体一致的差异向量，导致更平滑的搜索景观和更稳定的干预。高粒度概念则表现出显著的跨上下文旋转：提示对可能在单个问题内局部一致，但隐含的概念方向在不同问题间系统性变化。在这种情况下，平均向量成为一个糟糕的折衷，即使有用的干预仍然存在，秩1转向优化的代价也变得更高。我们表明，概念粒度——在转向搜索开始前直接从对比激活中估计——有助于解释接近最优所需的搜索预算以及最终达到的最佳转向质量。我们进一步表明，并非所有的不一致都应被视为结构性的。除了跨上下文旋转外，转向流程还会受到几种*可移除*方差源的影响，包括提示对不一致、提示与响应表示之间的碎片化，以及向量构建中幅度驱动的噪声。这些效应模糊了真正困难概念与可避免估计误差之间的界限。 综合来看，这些结果表明了秩1转向的一种实用工作流程。我们将此工作流程称为GRACE（粒度和表示感知的概念工程）：使用激活统计来诊断困难的潜在来源，应用相应的补救措施，然后将优化努力分配给搜索空间中最有希望的部分。通过这种方式，激活几何成为转向搜索和控制的实用先验。我们的贡献可概括如下： - • 我们展示了提示边界方向对齐可以预测有效秩1转向方向出现的位置，并可作为跨模型高效层选择的几何先验。 - • 我们将激活转向形式化为一个关于干预层和系数的预算受限优化问题，并表明几何引导的搜索能够以比标准网格搜索低得多的搜索成本恢复强干预。 - • 我们引入了*概念粒度*作为跨上下文方向异质性的度量，并表明它有助于预测不同概念家族间的优化难度和可达到的最佳转向性能。 - • 我们识别了转向困难的多个可移除来源，包括提示对不一致、表示碎片化和幅度引起的构建噪声，并将它们与粒度所捕捉的更持久的跨上下文旋转区分开来。 - • 我们提出了GRACE，一个实用的工作流程，它利用这些诊断结果为给定概念选择向量构建和搜索补救措施，使秩1转向在难以转动的设置中更加可靠和高效。 ## 2 背景与相关工作 ### 2.1 概念向量与激活转向 激活转向在推理时修改语言模型的内部残差流以诱导或抑制目标行为。在标准的秩1形式中，一个向量\(v_{\ell}\)以转向系数\(\alpha\)添加到层\(\ell\)，产生干预\(\alpha v_{\ell}\)。这种方法很有吸引力，因为它轻量、无需梯度更新，并保持了干预与可解释概念方向之间的直接联系[turner2023steering, rimskySteeringLlama22024]。构建此类向量的一种常见方法是*对比激活添加*（CAA），它平均表达和不表达目标行为的成对输入之间的激活差异[rimskySteeringLlama22024]。虽然在受控设置中有效，但早期的CAA风格构建通常依赖于手工设计的提示或预填充的多选示例，限制了它们向开放式生成的迁移。PersonaVectors [chen2025persona] 通过更系统的提取流程解决了这一限制。给定一个人类编写的概念定义，一个LLM生成\(P\)个对比提示对，并将每个提示对应用于\(Q\)个问题，每层产生\(N=P \times Q\)个激活差异。这个协议对我们的研究尤其有用，因为它暴露了两个不同的变异来源：同一概念的不同提示框架，以及同一提示框架的不同输入上下文。在我们的实验中，我们遵循此协议，每个概念使用\(P=5\)个提示对和\(Q=100\)个问题。 该文献中常见两种激活变体。*提示边界*变体记录最终提示标记处的激活，捕捉模型在生成开始前的状态[rimskySteeringLlama22024, braun2025understandingunreliabilitysteeringvectors]。*响应平均*变体对生成响应标记上的激活进行平均，捕捉概念在解码过程中表达的方式[chen2025persona]。正如我们稍后所示，这些变体表现出截然不同的几何特征，并在我们对可转向性的分析中扮演不同角色。 ### 2.2 秩1转向的可靠性 近期工作中一个核心经验事实是，秩1转向性能在不同概念间差异显著。评估概念转向通常需要同时衡量*概念表达*和*输出质量*，通常通过LLM评判下的概念分数和连贯性来操作化[chen2025persona, wu2025axbench, wu2025improvedrepresentationsteeringlanguage, lee2025programmingrefusalconditionalactivation, sun2025hypersteer]。在这种评估下，一些概念易于转向，而另一些则难以可靠控制。近期工作一致报告了秩1转向性能中依赖于概念的变异性。AxBench [wu2025axbench] 评估了大量概念，发现固定向量转向可能高度不一致。Braun 等人[braun2025understandingunreliabilitysteeringvectors] 展示了对比向量的方向一致性与转向质量相关，但主要在固定层和多项选择设置中研究这种关系。Bas 和 Novak [bas2026actuallysteermultibehaviorstudy] 同样报告了多样化行为间的显著变异性，更抽象的概念通常比高度具体的概念更容易转向。在安全设置中，CAST [lee2025programmingrefusalconditionalactivation] 将基于激活的方法应用于有害行为检测和拒绝转向，但仍然主要依赖固定的超参数选择。在这些工作中，一个共同模式仍然存在：评估通常固定一个层、一个系数或两者的一小组手动选择。这造成了重要的模糊性。性能差可能反映了一个真正弱的概念向量，但也可能反映了一个概念的有用工作点位于共享默认值之外。因此，固定超参数的评估可能将表示困难与优化失败混为一谈。我们的工作从这一区别出发，研究在搜索预算下恢复强秩1干预的难度有多大。 ### 2.3 概念表示的几何 近期工作开始更明确地分析转向向量和概念表示的几何。Braun 等人[braun2025understandingunreliabilitysteeringvectors] 提出了方向一致性作为转向向量质量的度量，并表明它与下游性能相关。Li 等人[li2026steeringvectorfieldscontextaware] 研究了概念方向如何跨标记位置和层变化，而 Im 和 Li [im2026unifiedunderstandingevaluationsteering] 检查了激活差异的子空间结构，以理解线性干预何时成功或失败。更广泛地说，关于稀疏自编码器和相关表示学习工具的工作加深了我们对模型如何组织内部特征的理解[bricken2023monosemanticity, templeton2024scaling]。这些研究提供了表示结构的有用描述性特征，但留下了一个实际问题：在现实调优约束下，如何利用几何来改进秩1转向？特别是，现有工作并未直接将对比激活的几何统计与找到有效层和系数的搜索成本联系起来。我们的工作聚焦于这一缺失环节。 ### 2.4 超越标准DiffMeans 改进转向的一个自然方式是修改向量构建本身。提示选择和聚类方法试图在平均之前去除不一致的提示对，而基于归一化的构建则减少了高幅度异常值的影响。更具表现力的方法通过基于梯度的优化学习转向向量甚至上下文相关的转向函数，如BiPO、HyperSteer和RePS [cao2025personalized, sun2025hypersteer, wu2025improvedrepresentationsteeringlanguage]。这些方法可以实现强控制，但代价是更高的训练复杂度、降低的可解释性和更大的超参数空间。我们的目标不是用更复杂的控制器替换简单的秩1转向，而是询问简单的秩1转向何时已经足够，以及是什么使其在实践中代价高昂。这催生了GRACE，它利用激活几何来诊断转向困难的潜在来源，指导向量构建，并降低搜索成本，同时保持完全可解释且无需训练。 ## 3 应该在何处转向？ 激活转向中的一个实际困难是干预层很少事先知道。先前的工作通常为所有概念固定一个或少数几个层[wu2025axbench, wu2025improvedrepresentationsteeringlanguage, braun2025understandingunreliabilitysteeringvectors]，但我们的结果表明有效的转向区域高度依赖于概念。因此，固定层评估可能低估了秩1转向的潜力，同时高估了其跨概念的一致性。

何时Rank-1引导是廉价的？几何、粒度和预算搜索

相似文章

你的LLM何时可引导？

保持专注：通过键正交投影实现激活转向

面向高效可控LLM推理的代理式思维链引导

角度-范数分解下的激活转向几何解释

UniSteer：文本引导的激活空间流匹配实现多功能大语言模型操控

提交意见反馈