微调回归的引力解释

arXiv cs.LG 2026/06/30 04:00 论文

fine-tuning ai-safety training-dynamics representational-drift machine-learning research

摘要

本文提出了微调回归的引力解释：早期训练形成了占主导地位的行为流形，后续的对齐只轻微地偏移它，从而产生了一个持久的回归方向。实验表明，阻止该方向能以极小的任务成本降低有害性。

arXiv:2606.28525v1 公告类型：新摘要：在无害数据上进行微调可能会部分撤销早期训练中获得的行为。安全性可能在良性的后对齐更新下被侵蚀，已遗忘的能力可能重新出现，潜在特征可能通过看似无关的监督转移，以及相关的后对齐脆弱性在其他生成式设置中也存在。我们认为这些现象可以通过共同的训练历史视角来有效理解。我们的假设是几何性的：早期的大规模训练阶段创建了占主导地位的行为流形，而后续的对齐或专门化阶段则是从这些流形上的浅层偏移。因此，后续的微调可以继承一个持久的回归分量，指向主导流形的一个见证。我们称之为微调回归的引力解释。在我们的主要设定中，表示漂移迅速获得了一个沿着历史定义的回归方向（v_rev）的分量。在我们的主要跟踪中，与v_rev的对齐从第一次更新后的cos = 0.429 ± 0.052上升到第20步时的0.647 ± 0.021。在24个运行-步骤对中，每个观测到的对齐都超过了各向同性激活空间零假设的p99。我们证明，选择性地阻止沿v_rev的运动将最终在T=100时的对齐从0.648 ± 0.009变为-0.211 ± 0.021，并将有害性从19.0% ± 4.0%降低到8.5% ± 1.5%，且任务成本很小。这些结果支持v_rev作为我们设定中早期后对齐回归的一个因果相关中介。重要的是，我们并不声称v_rev是唯一的安全方向，也不声称主导流形是直接观察到的；相反，我们识别了一个稳健的、由历史定义的方向，它解释并部分控制了早期回归动态。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:27

# 微调回归的引力解释 来源：https://arxiv.org/html/2606.28525 Samuele Poppi Nils Lukas 穆罕默德·本·扎耶德人工智能大学 (MBZUAI)，阿联酋 [email protected] ###### 摘要 在无害数据上进行微调，可以部分逆转训练早期习得的行为。安全性能在良性的后对齐更新下被侵蚀，被遗忘的能力可能重新出现，潜在特征可以通过看似无关的监督进行传递，并且在其他生成式设置中也存在类似的后对齐脆弱性。我们认为，这些现象可以通过一个共同的训练历史视角进行有益地审视。我们的假设是几何性的：早期的大规模训练阶段创建了主导的行为流形，而后来的对齐或专门化阶段则是相对于这些流形的较浅位移。因此，后续的微调可以继承一个持久的回归分量，该分量指向主导流形的一个见证样本。我们称之为 ***微调回归的引力解释***。在我们的主要设置中，表征漂移迅速获得一个沿历史定义的回归方向（\(v_{\mathrm{rev}}\)）的分量。在我们的主要轨迹中，与 \(v_{\mathrm{rev}}\) 的对齐度从第一次更新后的 \(\cos=0.429\pm0.052\) 上升到第 20 步时的 \(0.647\pm0.021\)。在 24 个运行-步骤对中，每个观察到的对齐度都超过了各向同性激活空间零假设的 \(p99\)。我们证明，在微调过程中选择性地阻断沿 \(v_{\mathrm{rev}}\) 的运动，会将 \(T=100\) 时的最终对齐度从 \(0.648\pm0.009\) 改变为 \(-0.211\pm0.021\)，并将有害性从 \(19.0\%\pm4.0\%\) 降低到 \(8.5\%\pm1.5\%\)，而任务代价很小。这些结果支持 \(v_{\mathrm{rev}}\) 在我们的设置中是后对齐早期回归的一个因果相关中介。重要的是，我们并不声称 \(v_{\mathrm{rev}}\) 是唯一的安全方向，也不声称主导流形是直接观察到的；相反，我们识别出一个稳健的、历史定义的方向，该方向解释并部分控制了早期的回归动态。 ## 1 引言 在普通数据上进行微调可以部分逆转训练早期习得的行为。一个经过安全对齐的语言模型在良性后对齐更新后变得不安全 (Qi et al., 2023 (https://arxiv.org/html/2606.28525#bib.bib13))，后续工作表明这种效应很大程度上取决于用于适应的良性样本 (He et al., 2024 (https://arxiv.org/html/2606.28525#bib.bib7); Guan et al., 2025 (https://arxiv.org/html/2606.28525#bib.bib6))。一个被移除有害知识的模型可以在良性适应下重新获得该知识 (Yang et al., 2023 (https://arxiv.org/html/2606.28525#bib.bib17))，并且一个在语义无关输出上训练的学生模型可以继承其教师的潜在行为倾向 (Cloud et al., 2025 (https://arxiv.org/html/2606.28525#bib.bib5))。在标准语言模型安全之外也报告了相关的脆弱性，包括文本到图像安全设置 (Alam et al., 2025 (https://arxiv.org/html/2606.28525#bib.bib1)) 以及在窄微调下出现的错位 (Betley et al., 2025 (https://arxiv.org/html/2606.28525#bib.bib3))。总的来说，这些发现表明一个共同的定性模式：一个较晚的训练阶段可以部分恢复较早阶段抑制、移除或移位的行为。

本文的灵感来自安全漂移问题，但其目标比仅仅解释安全侵蚀更广泛。我们的激励问题是，这些不同形式的漂移是否可以在一个共同的机制透镜下理解。现有的安全工作已经建立了两个重要的结构性事实：安全对齐占据一个浅的低秩子空间 (Qi et al., 2024 (https://arxiv.org/html/2606.28525#bib.bib14))，并且对齐模型只在有限的局部盆地内保持安全 (Peng et al., 2024 (https://arxiv.org/html/2606.28525#bib.bib11))。关于多语言微调攻击的相关工作进一步表明，这种脆弱性并不局限于一种语言设置：小的更新可以跨语言泛化并更广泛地损害安全性 (Poppi et al., 2024 (https://arxiv.org/html/2606.28525#bib.bib12))。一种自然的替代解读更简单：后适应漂移可能只是普通的任务优化，先前的约束通过遗忘或干扰而丢失。在这种观点下，有害性、不安全性或其他副作用并不是回到早期状态；它们只是新习得的、恰好与旧行为冲突的行为。我们认为，缺失的是一个统一的机制解释，说明为什么良性的后训练如此频繁地在不同设置下产生这些明显的修正效果。

我们的解读是，这些习得的行为往往不完全是新的。相反，它们可能从模型自身训练历史的早期阶段重新出现：预训练、仅有帮助阶段、后来的安全对齐阶段以及其他后续的专门化阶段。在这种观点下，后适应优化并不只遵循新损失函数施加的任务轨迹。它将该任务分量与一个回归分量结合起来，该分量指向训练早期创建的、更基础的行为区域。我们将这种稳定的、历史塑造的回归区域称为 ***回归流形***。其直觉是，最早的大规模阶段是形成性的：它们塑造出宽广且稳定的行为区域，而后来对齐或专门化阶段相对于它们来说是较浅的位移。我们将这种图景称为 ***引力解释***。在整篇论文中，诸如“流形”或“回归区域”之类的术语应从操作层面理解为：在激活空间中通过经验见证样本实现的一个稳定行为区域，而不是在权重空间中直接观察到的对象。

图 1：引力解释的概念示意图。预训练和广泛的有帮助调整将模型置于接近有帮助区域 \(\mathcal{M}_{\mathrm{H}}\) 的位置，该区域局部由一个仅有帮助的见证样本 \(\theta_{\mathrm{H}}\) 表示。之后的对齐或专门化阶段将模型位移到 \(\theta_{\mathrm{S}}\)。虚线绿色箭头标记为 \(v_{\mathrm{rev}}\)，表示从移位后的检查点指向早期有帮助区域的、由见证样本定义的回归方向。后续的良性微调则遍历下游检查点 \(\theta_{\mathrm{T}}\)。在任何这样的检查点处，局部更新可以分解为任务分量 \(g_{\mathrm{task}}(\theta_{\mathrm{T}})\) 和一个指向早期有帮助区域的回归分量 \(g_{\mathrm{rev}}(\theta_{\mathrm{T}})\)；粗黑色箭头表示它们的矢量和。

我们在这篇论文中的经验主张是有意狭窄的。我们并不声称直接观察到流形，也不论证这里研究的特定回归方向是唯一致向更有害或更不对齐区域的方向。相反，由于流形本身是潜在的，我们使用一小族局部的有帮助见证样本：通过获取相应的基础模型并运行短暂的仅有帮助微调阶段得到的检查点。从安全对齐的起始模型到这样一个见证样本的位移（后面将介绍为 \(v_{\mathrm{rev}}\)）是本文研究的具体局部回归方向。我们表明的是，这个代理方向在我们的设置中表现为后适应优化的一个偏好方向：它在不同的见证样本构建中稳定，强烈优于各向同性激活空间零假设，并且可以预测观察到的漂移。操作上，这支持了良性后对齐优化同时遵循显式任务目标和部分回到早期行为体制的图景。

然后，本文测试这种方向性图景在行为和因果意义上是否有意义。在我们的主要 8B 设置中，与 \(v_{\mathrm{rev}}\) 的对齐度从第一次良性更新后的 \(0.429\pm0.052\) 上升到第 20 步时的 \(0.647\pm0.021\)，并且在基线运行中，相同的早期窗口显示出显著的不安全漂移。在各个检查点中，几何对齐度预测下游退化，Spearman \(r=0.877\)。最重要的是，在良性微调过程中阻断沿 \(v_{\mathrm{rev}}\) 的运动，将有害性从 \(19.0\%\pm4.0\%\) 降低到 \(8.5\%\pm1.5\%\)，而任务代价很小，而匹配的随机方向对照则无法重现这种效应。

本文做出三个贡献。首先，它推进了一种重塑框架：后对齐安全退化不再仅仅被视为一种狭义的安全失效模式，而是作为更广泛的历史依赖回归现象的一个实例。第二，它识别出一个具体的回归方向，后续微调在早期对齐或专门化阶段之后自然地跟随该方向。第三，它表明操纵这个方向可以改变下游安全结果，将回归从一个松散的隐喻转化为一个可测试的轨迹级假设。整体解释仍然是基于见证样本和推理性的，而不是直接观察流形，但这种精度水平足以支持我们提出的经验主张。 ## 2 背景与相关工作 **微调破坏安全性。** Qi et al. (2023 (https://arxiv.org/html/2606.28525#bib.bib13)) 实证表明，在良性数据上进行微调会降低安全性。He et al. (2024 (https://arxiv.org/html/2606.28525#bib.bib7)) 和 Guan et al. (2025 (https://arxiv.org/html/2606.28525#bib.bib6)) 通过表明某些良性子集尤其会导致安全性退化，进一步强化了这一图景。Yang et al. (2023 (https://arxiv.org/html/2606.28525#bib.bib17)) 研究了一种密切相关的恢复现象，表明即使在模型看起来安全对齐的情况下，有害行为也可能在看似良性的适应下重新出现。相关的脆弱性也已在 T2I 安全设置中得到记录 (Alam et al., 2025 (https://arxiv.org/html/2606.28525#bib.bib1))。我们的引力解释提供了一个结构性解释，说明 *为什么* 良性数据能够可靠地引起安全侵蚀，以及为什么这种效应可能随训练规模而扩大。

**涌现的错位。** Betley et al. (2025 (https://arxiv.org/html/2606.28525#bib.bib3)) 表明，在看似良性（不安全）代码上进行窄微调会产生广泛错位的行为。Soligo et al. (2025 (https://arxiv.org/html/2606.28525#bib.bib15)) 表明这种效应具有一个收敛的线性表示。根据我们的引力解释，这是一个特例：代码微调将模型移向一个不存在对齐的行为流形。

**安全盆地与浅对齐。** Peng et al. (2024 (https://arxiv.org/html/2606.28525#bib.bib11)) 表明存在一个安全盆地：对齐模型权重的随机扰动在局部邻域内保持安全性，但超出某个半径后急剧下降。Qi et al. (2024 (https://arxiv.org/html/2606.28525#bib.bib14)) 提供了一个互补的观点，表明安全相关方向占据一个小的低秩子空间。相关工作进一步表明，这种安全结构在稀疏和低秩变化下是脆弱的：Wei et al. (2024 (https://arxiv.org/html/2606.28525#bib.bib16)) 识别出小的安全关键区域，移除或修改这些区域可以在没有大的效用损失的情况下破坏对齐。同时，Hsu et al. (2024 (https://arxiv.org/html/2606.28525#bib.bib8)) 表明低秩适应也可以用作一种缓解机制，强化了更广泛的观点：更新几何形状强烈影响下游微调是保持还是侵蚀安全性。在多语言模型中，Poppi et al. (2024 (https://arxiv.org/html/2606.28525#bib.bib12)) 提供了微调攻击下脆弱性的补充证据，表明一种语言中的小更新可以跨语言泛化并更广泛地损害安全性。我们的工作建立在两者之上：盆地半径效应解释了 LoRA 与全参数微调的对比，并且我们提供了证据表明安全盆地 *外部* 就是预训练流形，这是这些论文未予描述的特征。

**激活空间中的安全机制。** Arditi et al. (2024 (https://arxiv.org/html/2606.28525#bib.bib2)) 表明，残差流中的单个线性方向介导了语言模型中的拒绝行为。Blank et al. (2026 (https://arxiv.org/html/2606.28525#bib.bib4)) 表明，潜意识学习可以解释为引导向量蒸馏。我们遵循 Arditi et al. (2024 (https://arxiv.org/html/2606.28525#bib.bib2)) 使用均值差方向提取来表征安全漂移的激活空间几何形状。 ## 3 引力解释 本节从表 1 (https://arxiv.org/html/2606.28525#S3.T1) 中激励性的经验模式开始：在普通的良性微调下，一个对齐的模型可能表现出早期的不安全漂移。然后，我们介绍全文使用的几何解释，作为为什么这种模式可以在晚期对齐或专门化阶段之后再次出现的可能解释。

表 1：激励性的基线现象：主要 8B 良性微调运行中的早期不安全漂移。数值为 BeaverTails 不安全率（\(n=500\)），两次种子的均值 \(\pm\) 标准差。

我们的解释是，一旦模型被这样的后期阶段所移位，后续的良性微调并不会在表示空间任意移动。相反，它倾向于获得一个沿历史定义方向的显著分量，该方向指向早期的一个有帮助区域。我们现在定义操作上阐述该想法所需的激活空间对象。 ### 3.1 背景：激活空间方向 本文中的所有方向测量都在激活空间中定义。固定一个探针族 \(P\) 和一个层 \(\ell\)。对于任何检查点 \(\theta\)，令 \(m_{\theta}(P,\ell)\) 表示在层 \(\ell\) 处的平均残差流激活，平均跨探针族 \(P\) 中的提示。本文的基本几何对象是这些平均激活之间的位移。对于从起始模型 \(\theta_{\mathrm{S}}\) 开始经过良性微调得到的下游检查点 \(\theta_{\mathrm{T}}\)，在层 \(\ell\) 处的表示偏移为

\[
\Delta_{\mathrm{T}}(\ell) = m_{\theta_{\mathrm{T}}}(P,\ell) - m_{\theta_{\mathrm{S}}}(P,\ell).
\tag{1}
\]

这是整个几何实验中跟踪的轨迹对象。第二个要素是由见证样本定义的参考方向。给定一个有帮助的见证检查点 \(\theta_{\mathrm{H}}\)，我们定义

\[
v_{\mathrm{rev}}(\ell) = m_{\theta_{\mathrm{H}}}(P,\ell) - m_{\theta_{\mathrm{S}}}(P,\ell).
\tag{2}
\]

几何上，这是从起始检查点指向一个有帮助见证样本的激活空间位移，在同一探针族 \(P\) 上测量。本文的核心问题是，良性的后对齐优化是否自然地获得一个沿该方向的分量。

这个构造与 Arditi et al. (2024 (https://arxiv.org/html/2606.28525#bib.bib2)) 的拒绝方向设置相关但不同。Arditi 风格的方向比较 *一个模型* 在 *两个提示类别* 上的情况，例如

\[
r_{\ell} = m_{\theta}(P_{\mathrm{harmful}},\ell) - m_{\theta}(P_{\mathrm{harmless}},\ell),
\]

以分离模型内部的行为对比。我们的对象则是比较在 *相同探针族* 上的 *两个检查点*。因此目标不同：我们并不是在提取单个模型内部的拒绝特征。

微调回归的引力解释

相似文章

自我识别微调可以预防和逆转涌现性对齐失调

GFT：基于无偏群组优势与动态系数修正，从模仿迈向奖励微调

方向对齐缓解语言模型强化学习中的奖励作弊

微调陷阱：评估负迁移与PEFT在Sub-1B数学推理中的作用

谄媚可诱导产生 Emergent Misalignment，并通过对齐门控(Alignment Gating)逆转

提交意见反馈