GAC: 噪声感知的自适应混合用于混合SFT-RL后训练

arXiv cs.LG 2026/05/27 04:00 论文

llm post-training reinforcement-learning supervised-fine-tuning noise-aware adaptive-mixing

摘要

本文提出了GAC，一种用于大型语言模型混合SFT-RL后训练的噪声感知自适应混合控制器。它推导出一个闭式混合权重，平衡梯度噪声与SFT-RL分歧，在多个基准测试中取得一致的改进，且额外开销极小。

arXiv:2605.26184v1 公告类型：新摘要：混合后训练通常结合监督微调和强化学习，但固定的混合策略无法适应两种信号相对噪声随时间的变化。我们提出GAC，一种噪声感知控制器，从梯度方差和两个训练信号之间分歧的在线估计中推导出自适应混合权重。该方法在复用现有训练张量的同时，添加了平滑、先验指导和有界更新。在数学、代码、科学和逻辑基准上的实验表明，GAC在强固定和基于规则的基线之上持续改进混合后训练，在更大模型规模上获得更大收益，且训练开销低于1%。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:05

# GAC: 噪声感知的混合SFT-RL后训练自适应调节器
来源: https://arxiv.org/html/2605.26184
胡悦霖¹ 于振博¹ 程正雪¹ 刘炜² 宋利¹  
¹上海交通大学 ²上海海事大学  
\{huyelin51717221, yuzhenbo, zxcheng, songli\}@sjtu.edu.cn

###### 摘要

结合监督微调（SFT）和强化学习（RL）的混合后训练是对齐大型语言模型的标准范式，然而，当两个信号的相对噪声发生变化时，固定的混合调度无法自适应。通过最小化混合随机梯度的均方误差上界，我们推导出一个噪声感知的混合权重 μ*，得到一个闭式解，该解平衡了梯度噪声方差和 SFT-RL 分歧。基于 CHORD (Zhang et al., 2025) 的逐词元重加权，实用的引导式自适应控制器 (GAC) 增加了 EMA 平滑、调度先验和围绕该估计器的有界更新，所有统计量均从现有的训练张量在线估计。仅噪声感知控制器在 AMC 上比最佳基于规则的控制器高出 +3.0 个百分点；完整系统在数学、代码、科学和逻辑基准测试上比 HPT 高出 +3.8 个百分点，同时将 KL 漂移面积减少 28%，并将大 |Δμ| 事件减少 >70%，开销 <1%。增益随模型规模从 1.5B 到 14B 增长（表 6）。代码：https://github.com/anonymous/GAC。

## 1 引言

大型语言模型通常通过结合监督微调和强化学习进行后训练。SFT 稳定了来自专家示范的格式，而 RL 则从策略内 rollout 中改善了奖励寻求行为。然而，SFT 和 RL 目标无法完全解耦而不相互退化 (Niu et al., 2026)，并且固定的混合无法适应不断变化的策略漂移和奖励噪声，导致熵坍塌或后期过度模仿。最近的混合方法通过交错 SFT-RL (Su et al., 2025)、锚定正则化 (Zhu et al., 2025) 或冲突感知耦合 (Zeng et al., 2025) 来解决这一问题。我们采用一种互补方法：一个噪声感知的全局控制器，基于在线梯度不确定性估计来调整混合权重，并结合来自 CHORD (Zhang et al., 2025) 的逐词元稳定函数 φ(·)。图 1 提供了概述。

#### 贡献

新的贡献在于一个全局噪声感知的混合控制器及其基于代理的在线估计；逐词元重加权 φ(p) 取自 CHORD (Zhang et al., 2025)。(C1) 通过均方误差最小化得到的闭式 μ* (公式 3)，通过 z-归一化的代理（附录 D）实例化，封装在一个引导式控制器中，并附有激励稳定性分析（命题 2），重用现有张量，开销 <1%。(C2) 从 CHORD 采用的逐词元 SFT 重加权 φ(p) = p(1−p)，为控制器贡献了额外的 +0.4–1.4 个百分点（第 4.3 节）。(C3) 在 1.5B、7B 和 14B 规模下，对数学、代码、科学和逻辑进行了系统评估。

## 2 相关工作

**后训练范式**。顺序的 SFT-then-RL 展现出“偏移-重新适应-过拟合”的过程；调度的混合仍然是启发式的 (Ouyang et al., 2022; Christiano et al., 2017; Rafailov et al., 2023)。Niu et al. (2026) 证明了 SFT 和 RL 无法在不相互退化的情况下解耦，这激发了集成训练。

**动态加权与稳定性**。多任务学习采用不确定性加权 (Kendall et al., 2018)、梯度归一化 (Chen et al., 2018) 或冲突解决 (MGDA/PCGrad/CAGrad) (Sener and Koltun, 2018; Yu et al., 2020; Liu et al., 2021)。最近的方法包括 Nash-MTL (Navon et al., 2022)、FAMO (Liu et al., 2023)、Aligned-MTL (Senushkin et al., 2023)、SDMGrad (Xiao et al., 2023) 和 MoCo (Fernando et al., 2023)。没有一种方法同时显式建模梯度噪声方差和 SFT-RL 分歧。表 1 总结了关键差异。

**混合 SFT-RL 后训练**。CHORD (Zhang et al., 2025) 提出了具有全局 μ 和逐词元 φ(p)=p(1−p) 的双重控制；GAC 建立在 CHORD 之上，用噪声感知的控制器替换其启发式调度。SRFT (Fu et al., 2025) 使用熵感知加权；LUFFY (Yan et al., 2025) 用离策略轨迹增强 RL；HPT (Lv et al., 2025) 推导出精度门控的信号选择。TRAPO (Su et al., 2025) 通过信任区域 SFT 在每个实例内交错 SFT 和 RL。ASFT (Zhu et al., 2025) 通过 KL 正则化将策略锚定到基础分布。GTA (Zeng et al., 2025) 结合监督和 RL 信号并进行冲突缓解。GAC 的不同之处在于其在梯度噪声水平上运行，并具有闭式 μ*（命题 2）。

## 3 方法

**符号说明**。我们用 μ* 表示理想的最优混合权重，σₛ², σᵣ² 表示 SFT/RL 梯度噪声方差（通过代理估计），Δg² 表示梯度分歧，α_tgt 表示均方误差推导中的理论目标比率。在实践中，我们使用一个 KL 控制的比率 α_ctrl (公式 11)。整篇文章中，“SFT” 表示带有逐词元加权 φ(p)=p(1−p) 的 L_SFT−φ (Zhang et al., 2025)。完整的符号表见附录 LABEL:app:notation。

### 3.1 通过均方误差最小化的闭式 μ

设 SFT 和 RL 提供梯度估计量 ĝₛ = gₛ* + εₛ 和 ĝᵣ = gᵣ* + εᵣ（无噪声梯度 gₛ*, gᵣ* 加上方差为 σₛ², σᵣ² 的零均值噪声）。对于混合梯度 ĝ(μ) = μĝₛ + (1−μ)ĝᵣ 和目标 g⋆ = α_tgt gₛ* + (1−α_tgt) gᵣ*，我们推导出最优混合权重。

#### 关于“目标梯度”假设。

g⋆ 是一个局部控制目标，通过 α_tgt 编码期望的权衡，类似于信任区域代理，而非全局最优性声明。在一阶近似下，最小化相对于 g⋆ 的均方误差等价于最小化 L_mix 的带有方差感知正则化的局部上界。当 Δg² → ∞ 时，μ* → α_tgt：控制器默认采用用户指定的偏好。我们进一步使用 KL 稳定的 α_ctrl 和有界更新以防止突变（见局限）。

###### 定义 1（均方误差目标）。

混合梯度与目标之间的期望平方误差为：

E(μ) ≜ E[ || ĝ(μ) − g⋆ ||² ]。    (1)

在假设 E[εₛ] = E[εᵣ] = 0 且独立性 E[εₛ εᵣᵀ] = 0 下，我们展开均方误差（详情见附录 A）。代入 ĝ(μ) 和 g⋆，并使用 ĝ(μ) − g⋆ = (μ − α_tgt)(gₛ* − gᵣ*) + μ εₛ + (1−μ) εᵣ：

E(μ) = (μ − α_tgt)² Δg² + μ² σₛ² + (1−μ)² σᵣ²,    (2)

其中 Δg² = || gₛ* − gᵣ* ||² 表示梯度分歧，交叉项在独立性假设下消失。

###### 定理 1（最优混合权重）。

在 μ ∈ R 上，E(μ) 的唯一最小化子是：

μ* = (α_tgt Δg² + σᵣ²) / (Δg² + σₛ² + σᵣ²)。    (3)

###### 证明概要。

对公式 (2) 求导 ∂E/∂μ = 0：

2(μ − α_tgt)Δg² + 2μ σₛ² − 2(1−μ)σᵣ² = 0。    (4)

求解 μ 得到公式 (3)。二阶导数 ∂²E/∂μ² = 2(Δg² + σₛ² + σᵣ²) > 0 确认这是最小值。∎

这体现了偏差-方差权衡：当 Δg² → 0 时，μ* 简化为逆方差加权；当 Δg² → ∞ 时，μ* → α_tgt。

#### 相关噪声的扩展。

当独立性不满足时，使用 c = tr Cov(εₛ, εᵣ) 的扩展产生：

μ_c* = (α_tgt Δg² + σᵣ² − c) / (Δg² + σₛ² + σᵣ² − 2c)。    (5)

经验上，c 的变异系数 >0.8；包含它仅带来 +0.2 百分点的提升（不显著），但使大 |Δμ| 事件增加了三倍。我们在所有主要实验中省略了 c（附录 B）。

#### 有偏估计量。

实际的 RL 估计量是有偏的（裁剪、重要性采样、熵/KL 正则化）。在偏差 bₛ, bᵣ 下，最小化均方误差上界得到（附录 A.3）：

μ̃* = (α_tgt Δg² + σᵣ² − c + ⟨Δb, ḡ⟩) / (Δg² + σₛ² + σᵣ² − 2c + ||Δb||²),    (6)

当 b· = 0 且 c = 0 时，简化为公式 (3)–(5)。

### 3.2 代理信号

闭式 μ* 依赖于梯度级别的量（σₛ², σᵣ², Δg²），这些量在每一步计算代价高昂。我们采用计算上可行的*代理不确定性信号*：(i) RL 不确定性的优势分散度，以及 (ii) SFT 不确定性的长度归一化 NLL 方差。

#### 理论动机。

对于 RL，策略梯度直接由优势 Aₜ 缩放；因此小批量优势方差代理 Var(∇Lᵣ)。对于 SFT，每个样本的 NLL 方差捕获梯度异质性。与真实梯度统计量的皮尔逊相关系数：对于 σᵣ² 为 r=0.82±0.04，对于 σₛ² 为 r=0.76±0.05，并且有合理性检查确认了真实的系数结构（附录 D）。

### 3.3 稳定性驱动的设计准则

我们在理想化假设（LL-光滑损失、KL 有界更新）下提供稳定性驱动的分析。这些作为设计选择的激励性分析，而非严格保证（附录 C）。

GAC: 噪声感知的自适应混合用于混合SFT-RL后训练

相似文章

GFT：基于无偏群组优势与动态系数修正，从模仿迈向奖励微调

当RL在SFT后失效：恢复模型可塑性以实现稳健的SFT到RL交接

使用ART微调多模态大语言模型：基于艺术强化训练

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

小型RL控制器与大型语言模型：RL引导的测试时自适应采样

提交意见反馈