保持旋转的有监督微调
摘要
本文介绍了保持旋转的有监督微调(RPSFT),这是一种通过在微调过程中保持预训练奇异子空间中的投影旋转来提高域外泛化能力的方法。
查看缓存全文
缓存时间: 2026/05/13 06:23
# 保持旋转的有监督微调(Rotation-Preserving Supervised Fine-Tuning) 来源: https://arxiv.org/html/2605.10973 Hangzhan Jin1,2,∗ Tianwei Ni1,3 Lu Li1,3 Pierre-Luc Bacon1,3,5 Mohammad Hamdaqa2 Doina Precup1,4,5,6 1Mila - 魁北克人工智能研究所 2蒙特利尔理工学院 3蒙特利尔大学 4麦吉尔大学 5CIFAR 人工智能讲席教授 6Google DeepMind ###### 摘要 有监督微调(SFT)能提高域内性能,但会损害域外(OOD)泛化能力。先前的研究表明,这种退化与预训练权重矩阵中主导奇异子空间的变化有关。然而,在大语言模型(LLM)规模下,直接使用 Hessian 矩阵或 Fisher 信息矩阵来识别损失敏感方向在计算上代价高昂。在本工作中,我们提出了一种高效的方法,即保护预训练奇异子空间中的投影旋转,作为 Fisher 敏感方向的代理,我们称之为保持旋转的有监督微调(RPSFT)。RPSFT 对每个预训练权重矩阵的投影前 k 个奇异向量块的变化进行惩罚,在限制不必要旋转的同时保留任务适应能力。在基于数学推理数据训练的不同模型家族和尺寸上,RPSFT 相比标准 SFT 和强大的 SFT 基线,改善了域内/域外权衡,更好地保留了预训练表示,并为下游强化学习(RL)微调提供了更强的初始化。代码可用:https://github.com/jinhangzhan/RPSFT.git。 ††脚注: ∗通讯作者: [email protected]。 参见图1说明:方法概述。RPSFT 通过保留预训练 SVD 基中的投影块锚点来修改 SFT,同时保留全参数的任务适应能力。前 k 个预训练奇异块受到保护,互补方向保持自由,生成的 $\theta_{\text{SFT}}$ 用于初始化 RLFT。 ## 1 引言 大型语言模型通常通过有监督微调(SFT)随后进行强化学习微调(RLFT)来进行后训练。虽然 SFT 能提高后训练数据中表示的任务性能,但可能会损害域外(OOD)能力,这是一种由过度专业化引起的遗忘现象 (Zhu et al., 2025c; Wu et al., 2025)。先前的工作将这种退化与几何漂移联系起来,特别是预训练权重矩阵中主导奇异方向的旋转 (Jin et al., 2025; Zhu et al., 2025b)。由于这些方向与高方差和高曲率结构相关 (Haink, 2023),保留它们可能有助于在 SFT 期间保护通用能力。这激发了我们的问题:**有监督微调能否通过限制不必要的几何漂移同时保留任务适应能力来保持域外泛化?** 为了解决这个问题,我们提出了**保持旋转的有监督微调**(RPSFT),这是一种简单的正则化方法,其动机来自于观察到的主导奇异子空间与与域外遗忘相关的 Fisher 敏感方向之间的重叠。RPSFT 对每个选定权重矩阵的预训练前 $k$ 个奇异向量块的变化进行惩罚。与冻结或硬梯度投影不同,它仅锚定主导的预训练块,同时让互补方向自由适应,并且可以集成到标准的 SFT 流水线中,无需额外数据或任务边界。 具体而言,对于每个选定的矩阵 $\mathbf{W}$,RPSFT 预先计算预训练的前 $k$ 个左奇异向量基 $\mathbf{U}^{(k)}_0$ 和右奇异向量基 $\mathbf{V}^{(k)}_0$,并在 SFT 损失中添加 Frobenius 范数项 $\lambda \| (\mathbf{U}^{(k)}_0)^\top (\mathbf{W} - \mathbf{W}^0) \mathbf{V}^{(k)}_0 \|_F^2$。这种表述在稳定预训练期间学习的通用能力的同时,保留了有监督微调的表达力。图 1 总结了整体 RPSFT 后训练工作流程,算法 1 总结了算法细节。该方法直接集成到标准 SFT 流水线中,无需额外数据或任务边界。 我们在基于 OpenR1-Math 数据训练的 Llama (Grattafiori et al., 2024) 和 Qwen (Team, 2024) 检查点上,使用全参数微调评估了 RPSFT。我们将数学基准测试视为域内任务,将通用推理、安全和知识基准测试视为域外任务。在跨模型家族和尺寸中,RPSFT 相比 SFT 和强大的 SFT 基线改善了 ID/OOD 权衡,如图 4 所示。 为了理解其工作原理,我们分析了有监督微调后的表示漂移。比较基础模型和 SFT 后检查点的隐藏状态,我们表明 RPSFT 更好地保留了预训练表示几何结构。然后,我们在所有三种模型尺寸上评估下游强化学习,使用 DAPO (Yu et al., 2025),这是 GRPO (Shao et al., 2024) 的一种变体,发现 RPSFT 提供了强大的下游初始化,并持续获得更高或具有竞争力的最终 RL 性能。 总之,RPSFT 为 SFT 贡献了一种简单的投影子空间正则化器,在 Llama 和 Qwen 模型中实现了 ID/OOD 权衡的持续改进,并提供了实证和理论证据,表明保留主导预训练子空间可以减少旋转,保护隐藏状态表示,并改善遗忘-适应权衡。 ## 2 预备知识 现代推理语言模型的后训练通常分为两个阶段:首先在精心策划的指令数据上进行有监督微调(SFT),随后在任务级奖励上进行强化学习微调(RLFT)(DeepSeek-AI, 2025; OpenAI et al., 2024; Bai et al., 2023)。 #### SFT 和 PEFT 有监督微调通过在标记对数据集 $\mathcal{D}=\{(x,y)\}$ 上最小化负对数似然 $\mathcal{L}_{\text{SFT}}(\theta)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[-\log\pi_{\theta}(y|x)]$ 来适应预训练参数 $\theta_0$,其中 $x$ 是输入提示,$y$ 是目标响应,$\pi_{\theta}(y|x)$ 是使用从 $\theta_0$ 初始化的参数 $\theta$ 的模型分布。在本工作中,主要设置是全参数 SFT,其中所有模型参数都会更新。我们在附录 D 中包含原始 LoRA (Hu et al., 2021) 作为 PEFT 基线。 #### RLFT 和 DAPO 在 SFT 之后,可以使用强化学习进一步优化模型。我们使用 DAPO (Yu et al., 2025),它从 rollout 策略 $\pi_{\theta_{\text{old}}}(\cdot|x)$ 中采样一组 $G$ 个响应,计算归一化的组相对优势 $\hat{A}_i = \frac{r_i - \frac{1}{G}\sum_{j=1}^G r_j}{\operatorname{std}(\{r_j\}_{j=1}^G) + \varepsilon}$,其中 $r_i = r(x, y_i)$,$\varepsilon$ 是一个小的数值常数,并使用 token 级的 PPO 比率 (Schulman et al., 2017)。 ### C.5 理论分析 在局部近似中,ID 目标可以写为 $f_{\text{id}}(\mathbf{W}_0 + \Delta) - f_{\text{id}}(\mathbf{W}_0) \approx -\sum_s g_s \delta_s + \frac{1}{2}\sum_s h_s \delta_s^2, \quad h_s > 0$ (19),其中 $g_s$ 是沿坐标 $s$ 的域内学习驱动力,$h_s$ 是对应的局部曲率。在 RPSFT 下,局部目标变为 $-\sum_s g_s \delta_s + \frac{1}{2}\sum_s h_s \delta_s^2 + \lambda \sum_{s \in S_k} \delta_s^2$ (20)。 对于 OOD 遗忘,我们使用二次代理 $f_{\text{ood}}(\mathbf{W}_0 + \Delta) - f_{\text{ood}}(\mathbf{W}_0) \approx \frac{1}{2}\sum_s c_s \delta_s^2, \quad c_s \geq 0$ (21),其中 $c_s$ 衡量 OOD 性能对沿坐标 $s$ 移动的敏感度:较大的 $c_s$ 意味着较大的 OOD 退化。 ###### 命题 C.3(最优局部步长) 对于每个坐标 $s$,局部正则化目标的最小化器为: $$ \delta_s^*(k) = \begin{cases} \dfrac{g_s}{h_s + 2\lambda}, & s \in S_k, \\ \dfrac{g_s}{h_s}, & s \notin S_k. \end{cases} \quad (22) $$ 由此产生的 OOD 增加为: $$ F_{\text{ood}}(k) = \frac{1}{2}\sum_{s \in S_k} \frac{c_s g_s^2}{(h_s + 2\lambda)^2} + \frac{1}{2}\sum_{s \notin S_k} \frac{c_s g_s^2}{h_s^2}. \quad (23) $$ 由此产生的 ID 增益,在采取正则化步长后在未经正则化的局部 ID 代理上测量,为: $$ G_{\text{id}}(k) = \sum_{s \in S_k} \left( \frac{g_s^2}{h_s + 2\lambda} - \frac{1}{2} h_s \frac{g_s^2}{(h_s + 2\lambda)^2} \right) + \frac{1}{2}\sum_{s \notin S_k} \frac{g_s^2}{h_s}. \quad (24) $$ ###### 证明 目标在各个坐标上是可分离的,因此优化器是按坐标获得的。将结果 $\delta_s^*(k)$ 代入 ID 和 OOD 二次代理中得到上述公式。∎ ###### 命题 C.4(上秩边界的存在性) 假设存在 $q$ 使得对所有 $s \notin S_q$ 有 $c_s = 0$ (25)。也就是说,所有 OOD 敏感坐标已经包含在受保护的前 $q$ 个块中。定义标量效用 $\Phi(k) \coloneqq G_{\text{id}}(k) - \beta F_{\text{ood}}(k), \quad \beta > 0$ (26),其中 $\beta$ 控制相对于 ID 增益对 OOD 遗忘的惩罚强度。那么 $\Phi$ 的每一个最大化器 $k^*$ 都满足 $k^* \leq q$ (27)。 ###### 证明 对于 $k \geq q$,扩大受保护集不再改变 $F_{\text{ood}}(k)$,因为在秩 $q$ 时所有 $c_s > 0$ 的坐标已经受到保护。因此 $F_{\text{ood}}(k) = F_{\text{ood}}(q), \quad k \geq q$ (28)。另一方面,保护任何额外的坐标都会弱性地减少其对 $G_{\text{id}}(k)$ 的贡献,只要 $\lambda > 0$ 且 $g_s \neq 0$,就会严格减少。因此 $G_{\text{id}}(k) \leq G_{\text{id}}(q), \quad k \geq q$ (29),从而 $\Phi(k) \leq \Phi(q), \quad k \geq q$ (30)。所以没有最大化器可以位于 $q$ 之上。∎ ###### 推论 C.5(阈值规则) 考虑一个当前未受保护的坐标 $s$。定义保护该坐标的 ID 成本为: $$ \Delta_{\text{ID},s} \coloneqq \frac{1}{2}\frac{g_s^2}{h_s} - \left( \frac{g_s^2}{h_s + 2\lambda} - \frac{1}{2} h_s \frac{g_s^2}{(h_s + 2\lambda)^2} \right) = \frac{2\lambda^2 g_s^2}{h_s(h_s + 2\lambda)^2} \quad (31) $$ 并定义保护该坐标的 OOD 增益为: $$ \Delta_{\text{OOD},s} \coloneqq \frac{1}{2} c_s \frac{g_s^2}{h_s^2} - \frac{1}{2} c_s \frac{g_s^2}{(h_s + 2\lambda)^2} = \frac{2 c_s \lambda (h_s + \lambda) g_s^2}{h_s^2 (h_s + 2\lambda)^2}. \quad (32) $$ 那么保护坐标 $s$ 改善 $\Phi$ 当且仅当 $\beta \Delta_{\text{OOD},s} > \Delta_{\text{ID},s}$ (33),这等价于 $c_s > \frac{\lambda h_s}{\beta(h_s + \lambda)}$ (34)。 ###### 证明 这可以通过比较命题 C.3 中受保护和未受保护的单坐标贡献并简化得到。∎ #### 解释 上边界命题表明,一旦受保护的秩超过 OOD 敏感坐标的支持集,增加 $k$ 就不再能提高鲁棒性,但可能会通过过度抑制对域内适应有用的方向,恶化缓解遗忘和快速适应之间的权衡。阈值规则给出了相同思想的每个坐标版本:只有当方向的 OOD 敏感度 $c_s$ 足够大,以抵消因缩小该方向而损失的域内增益时,才应保护该方向。在这种观点下,$c_s$ 可以解释为预训练奇异基中坐标 $s$ 的 OOD 敏感度,其中较大的 $c_s$ 意味着更新此方向会导致更大的 OOD 退化。如果 OOD 敏感度随奇异索引衰减,这将自然诱导一个有限的秩边界,因此最优秩 $k$ 应足够大以覆盖高 $c_s$ 方向,但不能太大以至于也保护了许多低 $c_s$ 方向。这为附录 D 中的秩扫描提供了一个简单的解释:从 $k=0$ 移动到中等秩提高了鲁棒性,因为它保护了最 OOD 敏感的方向,而过大的秩表现得更多像全局锚定,通过过度约束非强 OOD 敏感的方向,恶化了缓解遗忘和快速适应之间的权衡。 #### 实践指导 在 SFT 之前,我们使用基础模型和图 2 中显示的相同 Fisher 投影梯度能量诊断来选择 $k$。具体而言,我们在来自 OOD 数据的小批量上计算每个样本的梯度,将它们投影到早期注意力矩阵(如 layer-1 q_proj)的预训练 SVD 基中,并扫描候选秩 $r$。然后我们检查曲线 $x(r) = 100 r^2/R^2$ 与 $y(r) = \mathrm{tr}(\mathbf{P}_{\text{svd},r}\mathbf{F})/\mathrm{tr}(\mathbf{F})$。一个实用的默认值是最小的 $r$,其严格的前 $r \times r$ 块捕获了早期注意力层中约 20% 的梯度能量:这保护了有意义部分的损失敏感方向,同时保持受保护块足够小以适应。在我们的实验中,$r=768$ 对应于大约 5% 的严格块,并且已经捕获了约 20% 的梯度能量,因此我们使用 $k=768$ 作为默认受保护秩。 ### C.6 梯度流视角:指数阻尼的任务诱导漂移 为了深入了解 RPSFT 诱导的优化动态,我们考虑正则化目标 $F_{\lambda}(W) = f(W) + \lambda \| U_k^\top (W - W_0) V_k \|_F^2$ 的连续时间梯度流极限。
相似文章
ShadowPEFT:面向参数高效微调的阴影网络
ShadowPEFT 提出一种集中式参数高效微调方法,通过深度共享的阴影模块细化 Transformer 层表示,在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。
GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调
# 论文页面 - GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调 来源:[https://huggingface.co/papers/2604.14258](https://huggingface.co/papers/2604.14258) ## 摘要 Group Fine-Tuning 通过利用多样化的回复群组和自适应权重边界来解决监督微调的局限性,从而提升训练稳定性与效率。大语言模型通常在后训练中使用[监督微调](https://hug
CERSA:一种用于内存高效微调的累积能量保留子空间自适应方法
本文介绍了 CERSA,这是一种新颖的参数高效微调方法,它利用奇异值分解来保留主成分,在显著降低内存使用的同时,其表现优于 LoRA 等现有方法。
超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。
超越 LoRA 与全参数微调:基于梯度引导优化器路由的大语言模型适配
本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。