保持旋转的有监督微调

arXiv cs.LG 2026/05/13 04:00 论文

摘要

本文介绍了保持旋转的有监督微调（RPSFT），这是一种通过在微调过程中保持预训练奇异子空间中的投影旋转来提高域外泛化能力的方法。

arXiv:2605.10973v1 公告类型：new 摘要：有监督微调（SFT）能够提升域内性能，但可能会降低域外（OOD）泛化能力。先前的研究表明，这种性能下降与预训练权重矩阵的主导奇异子空间的变化有关。然而，在大语言模型规模下，直接利用 Hessian 矩阵或 Fisher 信息量来识别对损失敏感的方向计算成本高昂。在本研究中，我们提出保持预训练奇异子空间中的投影旋转，作为 Fisher 敏感方向的高效代理，我们称之为保持旋转的有监督微调（RPSFT）。RPSFT 对每个预训练权重矩阵的投影前 $k$ 个奇异向量块的变化施加惩罚，在限制不必要的旋转的同时保留任务适应能力。在基于数学推理数据训练的不同模型家族和规模的实验中，RPSFT 相较于标准 SFT 及强大的 SFT 基线方法，改善了域内/域外的权衡，更好地保留了预训练表示，并为下游的强化学习微调提供了更优的初始化。代码可用地址为 \href{https://github.com/jinhangzhan/RPSFT.git}{https://github.com/jinhangzhan/RPSFT}。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 06:23

# 保持旋转的有监督微调（Rotation-Preserving Supervised Fine-Tuning）

来源: https://arxiv.org/html/2605.10973

Hangzhan Jin1,2,∗
Tianwei Ni1,3
Lu Li1,3
Pierre-Luc Bacon1,3,5
Mohammad Hamdaqa2
Doina Precup1,4,5,6

1Mila - 魁北克人工智能研究所
2蒙特利尔理工学院
3蒙特利尔大学
4麦吉尔大学
5CIFAR 人工智能讲席教授
6Google DeepMind

###### 摘要

有监督微调（SFT）能提高域内性能，但会损害域外（OOD）泛化能力。先前的研究表明，这种退化与预训练权重矩阵中主导奇异子空间的变化有关。然而，在大语言模型（LLM）规模下，直接使用 Hessian 矩阵或 Fisher 信息矩阵来识别损失敏感方向在计算上代价高昂。在本工作中，我们提出了一种高效的方法，即保护预训练奇异子空间中的投影旋转，作为 Fisher 敏感方向的代理，我们称之为保持旋转的有监督微调（RPSFT）。RPSFT 对每个预训练权重矩阵的投影前 k 个奇异向量块的变化进行惩罚，在限制不必要旋转的同时保留任务适应能力。在基于数学推理数据训练的不同模型家族和尺寸上，RPSFT 相比标准 SFT 和强大的 SFT 基线，改善了域内/域外权衡，更好地保留了预训练表示，并为下游强化学习（RL）微调提供了更强的初始化。代码可用：https://github.com/jinhangzhan/RPSFT.git。

††脚注: ∗通讯作者: [email protected]。

参见图1说明：方法概述。RPSFT 通过保留预训练 SVD 基中的投影块锚点来修改 SFT，同时保留全参数的任务适应能力。前 k 个预训练奇异块受到保护，互补方向保持自由，生成的 $\theta_{\text{SFT}}$ 用于初始化 RLFT。

## 1 引言

大型语言模型通常通过有监督微调（SFT）随后进行强化学习微调（RLFT）来进行后训练。虽然 SFT 能提高后训练数据中表示的任务性能，但可能会损害域外（OOD）能力，这是一种由过度专业化引起的遗忘现象 (Zhu et al., 2025c; Wu et al., 2025)。先前的工作将这种退化与几何漂移联系起来，特别是预训练权重矩阵中主导奇异方向的旋转 (Jin et al., 2025; Zhu et al., 2025b)。由于这些方向与高方差和高曲率结构相关 (Haink, 2023)，保留它们可能有助于在 SFT 期间保护通用能力。这激发了我们的问题：**有监督微调能否通过限制不必要的几何漂移同时保留任务适应能力来保持域外泛化？**

为了解决这个问题，我们提出了**保持旋转的有监督微调**（RPSFT），这是一种简单的正则化方法，其动机来自于观察到的主导奇异子空间与与域外遗忘相关的 Fisher 敏感方向之间的重叠。RPSFT 对每个选定权重矩阵的预训练前 $k$ 个奇异向量块的变化进行惩罚。与冻结或硬梯度投影不同，它仅锚定主导的预训练块，同时让互补方向自由适应，并且可以集成到标准的 SFT 流水线中，无需额外数据或任务边界。

具体而言，对于每个选定的矩阵 $\mathbf{W}$，RPSFT 预先计算预训练的前 $k$ 个左奇异向量基 $\mathbf{U}^{(k)}_0$ 和右奇异向量基 $\mathbf{V}^{(k)}_0$，并在 SFT 损失中添加 Frobenius 范数项 $\lambda \| (\mathbf{U}^{(k)}_0)^\top (\mathbf{W} - \mathbf{W}^0) \mathbf{V}^{(k)}_0 \|_F^2$。这种表述在稳定预训练期间学习的通用能力的同时，保留了有监督微调的表达力。图 1 总结了整体 RPSFT 后训练工作流程，算法 1 总结了算法细节。该方法直接集成到标准 SFT 流水线中，无需额外数据或任务边界。

我们在基于 OpenR1-Math 数据训练的 Llama (Grattafiori et al., 2024) 和 Qwen (Team, 2024) 检查点上，使用全参数微调评估了 RPSFT。我们将数学基准测试视为域内任务，将通用推理、安全和知识基准测试视为域外任务。在跨模型家族和尺寸中，RPSFT 相比 SFT 和强大的 SFT 基线改善了 ID/OOD 权衡，如图 4 所示。

为了理解其工作原理，我们分析了有监督微调后的表示漂移。比较基础模型和 SFT 后检查点的隐藏状态，我们表明 RPSFT 更好地保留了预训练表示几何结构。然后，我们在所有三种模型尺寸上评估下游强化学习，使用 DAPO (Yu et al., 2025)，这是 GRPO (Shao et al., 2024) 的一种变体，发现 RPSFT 提供了强大的下游初始化，并持续获得更高或具有竞争力的最终 RL 性能。

总之，RPSFT 为 SFT 贡献了一种简单的投影子空间正则化器，在 Llama 和 Qwen 模型中实现了 ID/OOD 权衡的持续改进，并提供了实证和理论证据，表明保留主导预训练子空间可以减少旋转，保护隐藏状态表示，并改善遗忘-适应权衡。

## 2 预备知识

现代推理语言模型的后训练通常分为两个阶段：首先在精心策划的指令数据上进行有监督微调（SFT），随后在任务级奖励上进行强化学习微调（RLFT）(DeepSeek-AI, 2025; OpenAI et al., 2024; Bai et al., 2023)。

#### SFT 和 PEFT

有监督微调通过在标记对数据集 $\mathcal{D}=\{(x,y)\}$ 上最小化负对数似然 $\mathcal{L}_{\text{SFT}}(\theta)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[-\log\pi_{\theta}(y|x)]$ 来适应预训练参数 $\theta_0$，其中 $x$ 是输入提示，$y$ 是目标响应，$\pi_{\theta}(y|x)$ 是使用从 $\theta_0$ 初始化的参数 $\theta$ 的模型分布。在本工作中，主要设置是全参数 SFT，其中所有模型参数都会更新。我们在附录 D 中包含原始 LoRA (Hu et al., 2021) 作为 PEFT 基线。

#### RLFT 和 DAPO

在 SFT 之后，可以使用强化学习进一步优化模型。我们使用 DAPO (Yu et al., 2025)，它从 rollout 策略 $\pi_{\theta_{\text{old}}}(\cdot|x)$ 中采样一组 $G$ 个响应，计算归一化的组相对优势 $\hat{A}_i = \frac{r_i - \frac{1}{G}\sum_{j=1}^G r_j}{\operatorname{std}(\{r_j\}_{j=1}^G) + \varepsilon}$，其中 $r_i = r(x, y_i)$，$\varepsilon$ 是一个小的数值常数，并使用 token 级的 PPO 比率 (Schulman et al., 2017)。

### C.5 理论分析

在局部近似中，ID 目标可以写为 $f_{\text{id}}(\mathbf{W}_0 + \Delta) - f_{\text{id}}(\mathbf{W}_0) \approx -\sum_s g_s \delta_s + \frac{1}{2}\sum_s h_s \delta_s^2, \quad h_s > 0$ (19)，其中 $g_s$ 是沿坐标 $s$ 的域内学习驱动力，$h_s$ 是对应的局部曲率。在 RPSFT 下，局部目标变为 $-\sum_s g_s \delta_s + \frac{1}{2}\sum_s h_s \delta_s^2 + \lambda \sum_{s \in S_k} \delta_s^2$ (20)。

对于 OOD 遗忘，我们使用二次代理 $f_{\text{ood}}(\mathbf{W}_0 + \Delta) - f_{\text{ood}}(\mathbf{W}_0) \approx \frac{1}{2}\sum_s c_s \delta_s^2, \quad c_s \geq 0$ (21)，其中 $c_s$ 衡量 OOD 性能对沿坐标 $s$ 移动的敏感度：较大的 $c_s$ 意味着较大的 OOD 退化。

###### 命题 C.3（最优局部步长）

对于每个坐标 $s$，局部正则化目标的最小化器为：
$$ \delta_s^*(k) = \begin{cases} \dfrac{g_s}{h_s + 2\lambda}, & s \in S_k, \\ \dfrac{g_s}{h_s}, & s \notin S_k. \end{cases} \quad (22) $$

由此产生的 OOD 增加为：
$$ F_{\text{ood}}(k) = \frac{1}{2}\sum_{s \in S_k} \frac{c_s g_s^2}{(h_s + 2\lambda)^2} + \frac{1}{2}\sum_{s \notin S_k} \frac{c_s g_s^2}{h_s^2}. \quad (23) $$

由此产生的 ID 增益，在采取正则化步长后在未经正则化的局部 ID 代理上测量，为：
$$ G_{\text{id}}(k) = \sum_{s \in S_k} \left( \frac{g_s^2}{h_s + 2\lambda} - \frac{1}{2} h_s \frac{g_s^2}{(h_s + 2\lambda)^2} \right) + \frac{1}{2}\sum_{s \notin S_k} \frac{g_s^2}{h_s}. \quad (24) $$

###### 证明

目标在各个坐标上是可分离的，因此优化器是按坐标获得的。将结果 $\delta_s^*(k)$ 代入 ID 和 OOD 二次代理中得到上述公式。∎

###### 命题 C.4（上秩边界的存在性）

假设存在 $q$ 使得对所有 $s \notin S_q$ 有 $c_s = 0$ (25)。也就是说，所有 OOD 敏感坐标已经包含在受保护的前 $q$ 个块中。定义标量效用 $\Phi(k) \coloneqq G_{\text{id}}(k) - \beta F_{\text{ood}}(k), \quad \beta > 0$ (26)，其中 $\beta$ 控制相对于 ID 增益对 OOD 遗忘的惩罚强度。那么 $\Phi$ 的每一个最大化器 $k^*$ 都满足 $k^* \leq q$ (27)。

###### 证明

对于 $k \geq q$，扩大受保护集不再改变 $F_{\text{ood}}(k)$，因为在秩 $q$ 时所有 $c_s > 0$ 的坐标已经受到保护。因此 $F_{\text{ood}}(k) = F_{\text{ood}}(q), \quad k \geq q$ (28)。另一方面，保护任何额外的坐标都会弱性地减少其对 $G_{\text{id}}(k)$ 的贡献，只要 $\lambda > 0$ 且 $g_s \neq 0$，就会严格减少。因此 $G_{\text{id}}(k) \leq G_{\text{id}}(q), \quad k \geq q$ (29)，从而 $\Phi(k) \leq \Phi(q), \quad k \geq q$ (30)。所以没有最大化器可以位于 $q$ 之上。∎

###### 推论 C.5（阈值规则）

考虑一个当前未受保护的坐标 $s$。定义保护该坐标的 ID 成本为：
$$ \Delta_{\text{ID},s} \coloneqq \frac{1}{2}\frac{g_s^2}{h_s} - \left( \frac{g_s^2}{h_s + 2\lambda} - \frac{1}{2} h_s \frac{g_s^2}{(h_s + 2\lambda)^2} \right) = \frac{2\lambda^2 g_s^2}{h_s(h_s + 2\lambda)^2} \quad (31) $$
并定义保护该坐标的 OOD 增益为：
$$ \Delta_{\text{OOD},s} \coloneqq \frac{1}{2} c_s \frac{g_s^2}{h_s^2} - \frac{1}{2} c_s \frac{g_s^2}{(h_s + 2\lambda)^2} = \frac{2 c_s \lambda (h_s + \lambda) g_s^2}{h_s^2 (h_s + 2\lambda)^2}. \quad (32) $$
那么保护坐标 $s$ 改善 $\Phi$ 当且仅当 $\beta \Delta_{\text{OOD},s} > \Delta_{\text{ID},s}$ (33)，这等价于 $c_s > \frac{\lambda h_s}{\beta(h_s + \lambda)}$ (34)。

###### 证明

这可以通过比较命题 C.3 中受保护和未受保护的单坐标贡献并简化得到。∎

#### 解释

上边界命题表明，一旦受保护的秩超过 OOD 敏感坐标的支持集，增加 $k$ 就不再能提高鲁棒性，但可能会通过过度抑制对域内适应有用的方向，恶化缓解遗忘和快速适应之间的权衡。阈值规则给出了相同思想的每个坐标版本：只有当方向的 OOD 敏感度 $c_s$ 足够大，以抵消因缩小该方向而损失的域内增益时，才应保护该方向。在这种观点下，$c_s$ 可以解释为预训练奇异基中坐标 $s$ 的 OOD 敏感度，其中较大的 $c_s$ 意味着更新此方向会导致更大的 OOD 退化。如果 OOD 敏感度随奇异索引衰减，这将自然诱导一个有限的秩边界，因此最优秩 $k$ 应足够大以覆盖高 $c_s$ 方向，但不能太大以至于也保护了许多低 $c_s$ 方向。这为附录 D 中的秩扫描提供了一个简单的解释：从 $k=0$ 移动到中等秩提高了鲁棒性，因为它保护了最 OOD 敏感的方向，而过大的秩表现得更多像全局锚定，通过过度约束非强 OOD 敏感的方向，恶化了缓解遗忘和快速适应之间的权衡。

#### 实践指导

在 SFT 之前，我们使用基础模型和图 2 中显示的相同 Fisher 投影梯度能量诊断来选择 $k$。具体而言，我们在来自 OOD 数据的小批量上计算每个样本的梯度，将它们投影到早期注意力矩阵（如 layer-1 q_proj）的预训练 SVD 基中，并扫描候选秩 $r$。然后我们检查曲线 $x(r) = 100 r^2/R^2$ 与 $y(r) = \mathrm{tr}(\mathbf{P}_{\text{svd},r}\mathbf{F})/\mathrm{tr}(\mathbf{F})$。一个实用的默认值是最小的 $r$，其严格的前 $r \times r$ 块捕获了早期注意力层中约 20% 的梯度能量：这保护了有意义部分的损失敏感方向，同时保持受保护块足够小以适应。在我们的实验中，$r=768$ 对应于大约 5% 的严格块，并且已经捕获了约 20% 的梯度能量，因此我们使用 $k=768$ 作为默认受保护秩。

### C.6 梯度流视角：指数阻尼的任务诱导漂移

为了深入了解 RPSFT 诱导的优化动态，我们考虑正则化目标 $F_{\lambda}(W) = f(W) + \lambda \| U_k^\top (W - W_0) V_k \|_F^2$ 的连续时间梯度流极限。

保持旋转的有监督微调

相似文章

ShadowPEFT：面向参数高效微调的阴影网络

GFT：基于无偏群组优势与动态系数修正，从模仿迈向奖励微调

CERSA：一种用于内存高效微调的累积能量保留子空间自适应方法

超越 SFT 到 RL：多模态强化学习中的黑盒策略蒸馏预对齐

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

提交意见反馈