MidSteer: 用于引导生成模型的最优仿射框架

arXiv cs.LG 论文

摘要

介绍MidSteer,一个用于生成模型中概念引导的理论框架,通过为LLMs和视觉扩散模型中的概念引导、擦除和切换提供最优仿射变换,弥合了经验成功与理论理解之间的差距。

arXiv:2605.05220v1 公告类型: 新 摘要:引导中间表示已成为控制生成模型的一种强大策略,特别是在部署后的对齐和安全设置中。然而,尽管其在经验上取得了成功,但目前缺乏一个全面的理论框架。在本文中,我们通过形式化概念引导的理论来弥合这一差距。首先,我们建立了引导与仿射概念擦除之间的联系,证明了去除不良行为的标准方法是LEACE(一种仿射擦除的封闭形式方法)的特例。接下来,我们提出了一个原则性的概念切换理论框架LEACE-Switch,并描述了其提供最优仿射解的条件。在此基础上,我们引入了MidSteer(最小扰动概念引导),一个更一般的用于概念操作的仿射框架,它放宽了这些假设并实现了定向的最小扰动变换。我们证明了MidSteer在各种任务、模态和架构(包括视觉扩散模型和大语言模型)中表现良好。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:31

# MIDSTEER: 生成模型引导的最优仿射框架  
来源:https://arxiv.org/html/2605.05220  
Andrew Stepanov, Ziquan Liu, Martin Benning, Gregory Slabaugh, Jiankang Deng, Ismail Elezi  

###### 摘要  

对中间表示进行引导已成为控制生成模型(尤其是部署后的对齐与安全设置)的一种强大策略。然而,尽管其经验上取得了成功,目前仍缺乏一个全面的理论框架。在本文中,我们通过形式化概念引导的理论来弥补这一空白。首先,我们在引导与仿射概念擦除之间建立联系,证明了移除不期望行为的标准方法是 LEACE(一种用于仿射擦除的闭合形式方法)的一个特例。接下来,我们为概念切换制定了一个有原则的理论框架 LEACE-Switch,并刻画了使其能提供最优仿射解所需的假设。在此基础上,我们引入 MidSteer(最小扰动概念引导),这是一个更通用的用于概念操作的仿射框架,它放宽了这些假设,并支持有方向、最小扰动的变换。我们证明 MidSteer 在一系列任务、模态和架构(包括视觉扩散模型和大语言模型)上表现良好。  

## 1 引言  

近年来,大语言模型 (LLM) 和视觉扩散模型等生成模型取得了显著进展 (Yang等,2024b (https://arxiv.org/html/2605.05220#bib.bib107); Naveed等,2023 (https://arxiv.org/html/2605.05220#bib.bib106))。然而,控制模型输出以强制执行期望行为或抑制有害行为仍然具有挑战性 (Bartoszcze等,2025 (https://arxiv.org/html/2605.05220#bib.bib18))。但这一能力对于提高模型在下游应用中的安全性、可靠性、对齐度和实用性至关重要。中间表示的概念引导是一种日益流行的技术,已被证明是控制大语言模型行为简单而强大的方法 (Panickssery等,2024 (https://arxiv.org/html/2605.05220#bib.bib6))。最近还被证明可适用于视觉扩散模型 (Gaintseva等,2025 (https://arxiv.org/html/2605.05220#bib.bib1))。其基本思想是通过在生成过程中添加或减去一个编码目标概念的“引导向量”来改变生成模型的中间表示。这种方法已被证明可有效用于擦除不期望的行为(毒性、裸露)或增强期望特征(有用性、真实性)(Panickssery等,2024 (https://arxiv.org/html/2605.05220#bib.bib6); Singh等,2024 (https://arxiv.org/html/2605.05220#bib.bib22); Gaintseva等,2025 (https://arxiv.org/html/2605.05220#bib.bib1))。  

然而,尽管该方法简单,其理论基础仍然不完善,大多数相关工作高度基于经验 (Zou等,2023 (https://arxiv.org/html/2605.05220#bib.bib19); Wehner等,2025 (https://arxiv.org/html/2605.05220#bib.bib110))。现有方法主要依赖于启发式的向量操作,可能引入意外的副作用,缺乏坚实的理论基础和保证 (Raedler等,2025 (https://arxiv.org/html/2605.05220#bib.bib112); Anthropic,2024 (https://arxiv.org/html/2605.05220#bib.bib4))。此外,朴素的引导常常扰动无关特征,违背了对保持模型质量和连贯性至关重要的最小扰动原则。  

最近,概念擦除方面已建立了坚实的理论基础。(Ravfogel等,2023 (https://arxiv.org/html/2605.05220#bib.bib24)) 引入了对数线性防护性 (log-linear guardedness) 的概念。基于此,(Belrose等,2025 (https://arxiv.org/html/2605.05220#bib.bib2)) 发展了 LEACE,一个用于从下游任务的模型表示中移除不期望信息的仿射概念擦除框架。然而,这些方法无法自然扩展到其他形式的概念操作,例如切换,其目标是用另一个概念替换当前概念,而不仅仅是擦除它。  

在本文中,我们通过为生成模型的仿射引导开发一个统一的理论框架来弥补这些空白。我们首先证明标准引导方法与 LEACE 之间的形式等价性,展示广泛使用的用于概念擦除的启发式引导是最优仿射概念擦除的一个特例。在此基础之上,我们将框架从擦除扩展到概念切换。我们首先考虑双向切换的设置,其中二值概念将数据集分为两部分,目标是反转表示对概念标签的线性依赖。在这些假设下,我们推导出 LEACE-Switch,一种最优仿射变换,它执行完整且对称的概念交换,同时对表示的扰动最小。我们考察了该公式的范围,并表明其假设——数据集划分和全局标签反转——定义了一个实际相关但受限的场景。  

我们处理更一般的设置,其中所涉及的概念不共同覆盖整个数据集,或者需要非对称、单向的变换。我们引入 MidSteer(最小扰动概念引导),一个广义的仿射概念操作框架,能够实现精确的切换,同时最小化对表示中无关属性的干扰。通过在大语言模型和视觉扩散模型上的实验,我们证明 LEACE-Switch 和 MidSteer 比原始引导实现了更可靠的概念切换,允许以最小的副作用进行可控生成。我们的结果强调了将引导方法建立在理论基础上的价值,并提供了将生成模型与期望行为对齐的实用工具。  

总结来说,我们的贡献如下:  

- • 我们建立了**标准激活引导与仿射概念擦除之间的形式理论联系**,展示了常用于概念擦除的引导启发式方法是 LEACE 的特例。  
- • 我们将**仿射擦除框架扩展到概念切换**,并引入了 LEACE-Switch,这是**在二值概念划分数据集的假设下概念交换的最优仿射公式**。  
- • 然后,我们**放宽了概念切换任务的数据集划分和对称性要求**,并引入 **MidSteer(最小扰动概念引导)**,这是一个**广义的仿射概念操作框架**,能够实现精确且有方向的概念切换,并具有可证明的最小干扰,不影响表示中的无关成分。  
- • 我们**跨模态和架构(包括大语言模型和视觉扩散模型)对 LEACE-Switch 和 MidSteer 进行了实证验证**,展示了与现有引导和擦除方法相比,更好的可控性和更少的副作用。  

## 2 相关工作  

**激活引导与表示操作。** 激活引导已成为一种轻量级的方法,通过修改中间表示来控制生成模型,尤其是在大语言模型 (Turner等,2023 (https://arxiv.org/html/2605.05220#bib.bib10); Bartoszcze等,2025 (https://arxiv.org/html/2605.05220#bib.bib18); Rimsky等,2024 (https://arxiv.org/html/2605.05220#bib.bib11)) 以及最近在扩散模型 (Tumanyan等,2023 (https://arxiv.org/html/2605.05220#bib.bib71); Kwon等,2023 (https://arxiv.org/html/2605.05220#bib.bib68); Gaintseva等,2025 (https://arxiv.org/html/2605.05220#bib.bib1)) 中。现有大多数方法依赖于启发式的向量加法或减法,通常来自平均激活差异,并且对最优性或副作用提供的保证有限。我们的工作将引导形式化为一个仿射变换问题,并研究这类干预何时是可证明的最小且适定的。  

**仿射概念擦除与防护性。** 一系列相关工作专注于从表示中移除概念信息。INLP (Ravfogel等,2020 (https://arxiv.org/html/2605.05220#bib.bib20)) 和 RLACE (Ravfogel等,2023 (https://arxiv.org/html/2605.05220#bib.bib24)) 迭代地投影出能够预测受保护属性的线性子空间。LEACE (Belrose等,2025 (https://arxiv.org/html/2605.05220#bib.bib2)) 提供了在防护性框架下的最优线性概念擦除的闭合形式仿射解,在强制与概念标签零协方差的同时最小化表示扰动。我们的工作直接基于这一理论,展示了标准擦除模式引导是 LEACE 的一个特例,并将框架扩展到擦除之外。接下来,SPLINCE (Holstege等,2025 (https://arxiv.org/html/2605.05220#bib.bib21)) 研究了擦除受保护属性同时保留任务相关子空间的斜投影。虽然这些方法处理了受约束的擦除,但它们不考虑概念切换,后者需要转换概念依赖而不是擦除它。尽管如此,它们激发了具有结构约束的最小扰动目标的重要性,我们的工作在切换设置中处理了这一点。  

**分布对齐与表示手术。** 表示手术 (Singh等,2024 (https://arxiv.org/html/2605.05220#bib.bib22)) 推导出使源分布和目标分布的类别条件均值(以及可选协方差)相匹配的仿射变换。该方法在高斯假设下进行分布对齐,适用于类别条件统计量完全描述所需变换的任务。相比之下,MidSteer 对表示与概念指示器之间的交叉协方差进行操作,保持表示空间的全局线性结构,并显式地最小化概念中介子空间之外的改变。因此,MidSteer 针对的是概念切换而非完全分布匹配,两种方法优化不同的目标。  

总之,虽然先前的方法处理了擦除或分布对齐,但我们的工作是第一个将概念切换形式化为一个独特的仿射问题,并推导出跨模态具有显式最小扰动保证的闭合形式解的工作。  

## 3 预备知识  

### 3.1 模型内部表示的引导  

我们将**激活引导**形式化为对模型内部表示的操作,以控制特定概念 \(c\) 在模型输出中的存在。这是通过在推理过程中向中间隐藏活动 \(h\) 添加一个缩放后的引导向量 \(s_c\) 来实现的。**引导向量** \(s_c\) 由概念条件均值下的隐藏活动构造。令 \(h\) 为 \(\mathbb{R}^d\) 中表示某一层活动的随机向量,\(C \in \{0,1\}\) 表示概念 \(c\) 的存在与否。引导向量 \(s_c \in \mathbb{R}^d\) 定义为这些均值的差:  

\[
s_c = \mathbb{E}[h|C=1] - \mathbb{E}[h|C=0],
\]  

(1)  

\(s_c\) 可以选择性地进行后处理(例如归一化为单位范数)。一般引导干预 \(f\) 通过标量 \(\alpha \in \mathbb{R}\) 控制概念的表达强度与方向。省略下标 \(c\),操作为:  

\[
f(h, s) = h + \alpha s
\]  

(2)  

我们强调两个重要的特例,由干预函数 \(f\) 的选择决定。  

**概念擦除。** 其目标是从激活向量 \(h\) 中擦除与概念 \(c\) 对齐的所有信息。这是通过将 \(h\) 投影到与引导方向 \(s\) 正交的子空间上来实现的。投影 \(\langle h, s \rangle s\) 估计概念成分,然后将其移除:  

\[
f_{\text{delete}}(h, s) = h - \langle h, s \rangle s
\]  

(3)  

**概念切换。** 将投影乘以 2 得到向量 \(h\) 关于垂直于 \(s\) 的超平面的 Householder 反射:  

\[
f_{\text{switch}}(h, s) = h - 2 \langle h, s \rangle s
\]  

(4)  

该变换有效地将 \(h\) 中与 \(c\) 对齐的分量替换为其相反量,从而用概念缺失的表示替换概念 \(c\) 的表示。如果将引导应用于特定层(例如,大语言模型中的自注意力输出或视觉模型中的交叉注意力层),则等式 (3) (https://arxiv.org/html/2605.05220#S3.E3) 和等式 (4) (https://arxiv.org/html/2605.05220#S3.E4) 可以直接合并到模型的权重矩阵中。这样可以实现零推理开销,这对于大规模应用中的部署至关重要。  

### 3.2 仿射防护性框架  

对于从模型表示中擦除概念的任务,(Ravfogel 等,2023 (https://arxiv.org/html/2605.05220#bib.bib24)) 引入了对数线性防护性的概念。(Belrose 等,2025 (https://arxiv.org/html/2605.05220#bib.bib2)) 将其推广为:  

###### 定义 3.1 (防护性)。 考虑一个 \(k\) 类分类任务,涉及联合定义的随机向量 \(X\)(输入数据)和 \(Z\)(独热标签),其中 \(X\) 具有有限的一阶矩且取值于 \(\mathbb{R}^d\),\(Z\) 取值于 \(\mathcal{Z} = \{\mathbf{z} \in \{0,1\}^k \mid \|\mathbf{z}\|_1 = 1\}\),且每个 \(1\) 第 \(j \leq k\) 个整数用于指代 \(\mathcal{Z}\) 中在第 \(j\) 个索引处为 \(1\) 而其他位置为 \(0\) 的元素。假设 \(\mathbb{P}(Z=j) > 0\)。令 \(\eta(\cdot; \bm{\theta}): \mathbb{R}^d \to \mathbb{R}^k\) 是从一个函数类 \(\mathcal{V} = \{\eta(\cdot; \bm{\theta}) \mid \bm{\theta} \in \Theta\}\)(假定包含所有常函数)中选择的预测器,以最小化某个损失函数 \(\mathcal{L}: \mathbb{R}^k \times \mathcal{Z} \to [0, \infty)\) 在类 \(\mathfrak{L}\) 中的期望 \(\mathbb{E}\big[ \mathcal{L}(\eta(X), Z) \big]\)。设 \(\chi\) 为所有与 \(Z\) 联合定义、取值于 \(\mathbb{R}^d\) 且具有有限一阶矩的随机向量的集合。我们说 \(X\) 是 \((\mathcal{V}, \mathfrak{L})\)-防护 \(Z\) 的,如果对于所有损失 \(\mathcal{L} \in \mathfrak{L}\),它最大化最小期望损失:  

\[
X \in \mathop{\mathrm{argmax}}_{X' \in \chi} \inf_{\theta \in \Theta} \mathbb{E}\Big[ \mathcal{L}(\eta(X'; \theta), Z) \Big].
\]  

换句话说,其条件分布 \(\mathbb{P}(X \mid Z = \cdot)\) 是使用形式为 \(\eta(\cdot; \theta) \in \mathcal{V}\) 的预测器和损失函数在 \(\mathfrak{L}\) 中时,从 \(X\) 预测 \(Z\) 的最差分布之一。基于定义 3.1 (https://arxiv.org/html/2605.05220#S3.Thmtheorem1),注意到防护性刻画了输入的条件分布使得在给定模型类和损失下,目标 \(Z\) 最大化不可预测的性质。

相似文章

FineSteer: 大规模语言模型推理时细粒度控制的统一框架

arXiv cs.CL

FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。

基于稀疏查询特征梯度优化的导向生成

arXiv cs.LG

本文介绍了Prototype-Based Sparse Steering方法,该方法将稀疏自编码器应用于大语言模型的注意力查询激活,然后在推理过程中使用梯度优化来引导生成朝向目标行为。该方法在一个逻辑规划任务和一个风格化教育领域中得到了验证,展示了可解释且解耦的控制能力。

流形引导注意力转向

arXiv cs.LG

提出了流形引导的注意力转向(MAGS),这是一种轨迹感知的推理时干预方法,通过将注意力输出投影回学习的正确性流形(当偏差超过阈值时)来纠正LLM中的推理错误,在数学、代码和分子基准测试中优于静态转向方法。