SFT过训练预测RLVR下因熵崩溃导致的排名反转

arXiv cs.LG 论文

摘要

本文证明,为GRPO选择pass@1最高的SFT检查点可能会失败,因为SFT过训练压缩了输出多样性,导致强化学习中的熵崩溃和排名反转。在Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B上的实验表明,预RL熵与GRPO结果呈正相关,并且一个两阶段诊断方法可以检测高风险检查点。

arXiv:2606.18487v1 Announce Type: new 摘要:当SFT压缩了rollout分布时,为GRPO选择pass@1最高的SFT检查点的标准启发式方法可能会失败。对于二元奖励,组内优势方差的期望为$p(1{-}p)(g{-}1)/g$;当早期GRPO将$p$驱动到$p^*(g)$以下时,大多数组具有相同的奖励,因此无法提供组相对信号。我们研究了Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B的SFT深度阶梯。在Qwen2.5-Coder-3B上,我们测试了五个深度和三个随机种子;在DeepSeek-Coder-6.7B上,测试了四个匹配深度和三个随机种子。在Qwen上,预RL的pass@1随SFT深度增加而上升,但GRPO的最高pass@10从$0.806$下降到$0.481$(3种子均值,$n{=}20$);预RL熵与GRPO结果呈正相关($\rho{=}{+}0.69$)。在DeepSeek上,pass@1仍然远高于$p^*(8){=}0.083$,GRPO结果压缩而非反转。一个两阶段诊断方法,结合预RL熵分流和早期GRPO熵监控,可以标记高风险检查点并尽早停止失败的运行。在我们的设置中,简单的KL参考正则化和标签平滑变体无法挽救崩溃的Qwen检查点,这表明失败并非简单的GRPO超参数伪影。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:43

# SFT过度训练预测RLVR下通过熵崩溃的排名反转 来源: https://arxiv.org/html/2606.18487 ###### 摘要 选择具有最高 pass@1 的 SFT 检查点用于 GRPO 的标准启发式方法,当 SFT 压缩了 rollout 分布时可能会失效。对于二元奖励,组内优势方差的期望值为 \(p(1-p)(g-1)/g\);当早期 GRPO 将 \(p\) 推至 \(p^*(g)\) 以下时,大多数组获得相同奖励,不再提供组相对信号。我们研究了 Qwen2.5-Coder-3B 和 DeepSeek-Coder-6.7B 的 SFT 深度阶梯。我们在五个深度和三个种子上测试了 Qwen2.5-Coder-3B,并在四个匹配深度和三个种子上测试了 DeepSeek-Coder-6.7B。在 Qwen 上,RL 前的 pass@1 随 SFT 深度增加而上升,但 GRPO 峰值 pass@10 从 0.806 降至 0.481(3 种子均值,\(n=20\));RL 前熵与 GRPO 结果正相关(\(\rho=+0.69\))。在 DeepSeek 上,pass@1 仍远高于 \(p^*(8)=0.083\),GRPO 结果趋于压缩而非反转。一种两阶段诊断方法,结合 RL 前熵分流和早期 GRPO 熵监测,可标记高风险检查点并提前停止失败运行。在我们的设置中,简单的 KL 参考正则化和标签平滑变体无法挽救崩溃的 Qwen 检查点,表明该故障并非琐碎的 GRPO 超参数伪影。 强化学习,监督微调,GRPO,熵崩溃,代码生成,排名反转 ## 1 引言 代码生成的标准后训练流程是应用监督微调(SFT)然后使用可验证奖励进行强化学习(RLVR)(Shao et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib7); Guo et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib6)),选择得分最高的 SFT 检查点进行 RL。¹¹¹代码可从 https://github.com/siddharthaphale/entropy-collapse-rlvr 获取 这一规则日益受到质疑:长时间 SFT 会导致记忆而非泛化 (Chu et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib11)),RLVR 会收窄推理边界 (Yue and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib4)),并且 pass@1 单独作为大规模模型 RL 后结果的预测指标能力较弱 (Kang et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib1))。我们证明,当 SFT 过度训练与策略进入熵崩溃相关时,这一标准具有误导性:在 Qwen2.5-Coder-3B-Base 的 SFT 深度阶梯上,GRPO 峰值 pass@10 从 0.806 单调下降至 0.481(3 种子均值),而 RL 前 pass@1 却 *上升*,且 pass@1 最高的检查点在每个种子中均逊于较浅的检查点。其机制是:SFT 过度训练压缩了输出多样性,消除了 GRPO 所需的梯度信号。在 DeepSeek-Coder-6.7B-Base 上的并行阶梯提供了一个机制边界(§4.1 (https://arxiv.org/html/2606.18487#S4.SS1))。 先前关于 SFT 到 RL 过渡的工作主要关注数据组成 (Chu et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib11)) 或离线与在线分布不匹配 (Zhang et al., 2026 (https://arxiv.org/html/2606.18487#bib.bib14)),而非固定计算量下特定检查点的选择。聚合预测指标无法诊断个体失败。Pass@64 结合泛化损失可预测 RL 后结果,达到 \(R^2=0.94\) (Kang et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib1)),远超 pass@1 单独使用,但两个具有相同 pass@64 的检查点可能携带截然不同的熵分布。大 \(k\) 下的 pass@k 衡量问题是否 *曾经* 可解而非 *多么可靠*;检查点特定的方差问题本质上超出了其范围 (Dragoi and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib8); Yue and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib4))。贪心 pass@1(\(T=0\))在错误的温度下衡量能力;GRPO 运作的温度 \(T=1.0\) 下的 rollout 分布可能比贪心行为所指示的压缩得多。 我们做出三项有限贡献。首先,在二元奖励下,组内优势方差精确为 \(\mathbb{E}[\sigma_G^2] = p(1-p)(g-1)/g\),从而得到一个多数退化阈值 \(p^*(g)\),在此阈值下 GRPO 的组相对信号结构性崩溃(命题 3 (https://arxiv.org/html/2606.18487#Thmproposition3))。其次,在 Qwen2.5-Coder-3B-Base 上,我们识别出一个排名反转案例研究:SFT 深度提高了 RL 前 pass@1,同时降低了 GRPO 峰值 pass@10,且该故障由熵崩溃和奖励方差崩溃解释。第三,在 DeepSeek-Coder-6.7B-Base 上,pass@1 仍远高于 \(p^*(8)\),GRPO 排名趋于压缩而非反转,提供了一个对比性的安全区间。用于分流的确切熵阈值是针对 Qwen 阶梯校准的;与模型无关的声明是检查点排序和风险信号,而非通用阈值。两种自然的干预措施——KL 惩罚和标签平滑——在我们的设置中无法挽救崩溃的检查点;故障似乎出现在所测试 GRPO 变体的上游。我们在三个随机种子上进行了验证。第 2 节 (https://arxiv.org/html/2606.18487#S2) 回顾相关工作;第 3 节 (https://arxiv.org/html/2606.18487#S3) 介绍实验设置;第 4 节 (https://arxiv.org/html/2606.18487#S4) 介绍排名反转、机制、诊断、跨模型验证和干预措施;正式推导见附录 A.3。 ## 2 相关工作 #### SFT 过度训练限制 RL。 SFT 记忆解决方案而 RL 在它们之间进行泛化 (Chu et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib11))。在 Kang 等人 (2025 (https://arxiv.org/html/2606.18487#bib.bib1)) 的跨模型研究中,pass@1 作为 RL 后结果的预测指标远弱于 pass@64 与泛化损失的结合,并且将 SFT 扩展到两个 epoch 以上会降低数百个模型的 GRPO 结果。在我们的家族内阶梯中,pass@1 与 RL 后峰值 pass@10 *负相关*(\(\rho = -0.75\),§4.1 (https://arxiv.org/html/2606.18487#S4.SS1))。Zhang 等人 (2026 (https://arxiv.org/html/2606.18487#bib.bib14)) 独立证明了数学推理中的排名反转,将其归因于离线与在线分布不匹配,并提出了 PEAR 作为补救措施;我们的熵分析通过命题 1 (https://arxiv.org/html/2606.18487#Thmproposition1) 提供了机制解释,并识别出故障发生在 SFT 阶段而非 SFT 损失目标。 #### pass@k 作为准备就绪代理的局限性。 大 k 下的 pass@k 衡量问题是否 *曾经* 可解而非 *多么可靠* (Dragoi and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib8))。由于 RLVR 收窄而非扩展推理边界,pass@k 捕获了能力上限,但无法说明 RL 压缩是否成功 (Yue and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib4))。直接针对输出分布范围提出的替代方案(如多样性比率 \(\Delta_k\))在低 pass@1 时表现不佳(§4.2 (https://arxiv.org/html/2606.18487#S4.SS2))。贪心 pass@1(\(T=0\))因一个不同但相关的原因而失败:它在错误的温度下衡量能力。GRPO 在 \(T=1.0\) 下运作,检查点的输出分布可能比其贪心行为所暗示的压缩得多。 #### 熵作为约束条件。 Cui 等人 (2025 (https://arxiv.org/html/2606.18487#bib.bib9)) 表明 RL 性能上限由模型的初始熵决定,并提出了 Clip-Cov 来应对 *RL 期间* 的崩溃。我们的诊断处理前一个阶段:SFT 是否在 GRPO 开始之前就已耗尽熵。我们的 RL 前筛选补充了他们的 Clip-Cov 方法:我们识别出哪些检查点需要在训练前进行熵保留,而他们则在训练期间维持熵。 #### RL 算法与多样性要求。 GRPO 的无评论家设计使得故障模式最为清晰:当组内所有 rollout 获得相同奖励时,组相对优势为零,梯度消失 (Shao et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib7))。PPO 和 RLOO 通过其基线部分掩盖了这一点;我们使用 GRPO 正是因为它使得熵崩溃在训练信号中可观察。训练时的熵保留方法 (Chen et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib10); Walder and Karkhanis, 2025 (https://arxiv.org/html/2606.18487#bib.bib5)) 是互补的;我们的诊断识别出哪些检查点在训练开始前就需要这些方法。 #### 熵崩溃作为可塑性丧失的症状。 可塑性丧失(网络在经过长时间优化后逐渐失去适应新训练信号的能力)在深度 RL 中已有充分记录 (Lyle et al., 2023 (https://arxiv.org/html/2606.18487#bib.bib16); Nikishin et al., 2022 (https://arxiv.org/html/2606.18487#bib.bib17); Dohare et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib18))。熵崩溃与此图景一致,其实际优势在于熵可在 RL 前测量,而有效秩和死亡神经元分数需要额外仪器。保留可塑性的方法,包括周期性网络重置 (Nikishin et al., 2022 (https://arxiv.org/html/2606.18487#bib.bib17)) 和向初始权重的正则化 (Kumar et al., 2023 (https://arxiv.org/html/2606.18487#bib.bib19)),是互补的:我们的诊断识别出在消耗 RL 计算之前哪些检查点已经经历熵崩溃,而那些方法则解决在训练期间维持可塑性的问题。 ## 3 方法 我们在主要研究中将 SFT 时长作为唯一的自变量:所有检查点共享相同的架构、数据、超参数和评估协议。§4.4 (https://arxiv.org/html/2606.18487#S4.SS4) 中的消融实验改变了 GRPO KL 惩罚,并对 5.8 epoch 检查点应用了标签平滑。关于 DeepSeek-Coder-6.7B-Base 的跨模型线程贯穿整个 §4 (https://arxiv.org/html/2606.18487#S4),与 Qwen 阶梯并列,并在附录 A.5 中总结。 #### 模型。 两个基础模型在相同的训练方案下进行训练。主要阶梯使用 Qwen2.5-Coder-3B-Base (Hui et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib3));跨模型阶梯使用 DeepSeek-Coder-6.7B-Base (Guo et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib6))。两者均以 BF16 和 LoRA(\(r=128\),\(\alpha=128\),应用于所有线性层和嵌入层)进行微调。SFT 使用 AdamW 8 位,学习率 \(1\times10^{-5}\),批量大小 16,恒定调度,权重衰减 0.001。在特定检查点训练开始前,先进行 100 步的格式预热,以学习 \(\to\) 代码输出格式。 #### SFT 数据集和检查点。 训练使用 5,000 个中等难度的 KodCode-V1 问题 (Xu and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib12)),通过嵌入余弦相似度(阈值 \(\tau=0.70\),all-MiniLM-L6-v2,去除了池中 20.8% 的数据)对 HumanEval 和 MBPP 进行去污染。CoT 轨迹使用 Gemini 2.5 Flash 重新生成,目标是简洁推理(中位数 518 个 token),以适应 2,048 个 token 的上下文窗口而无需截断。为 Qwen 选择了跨越 1.0 到 5.8 epoch 的五个检查点用于 GRPO(表 1 (https://arxiv.org/html/2606.18487#S4.T1));我们在全文通过 SFT epoch 值来指代检查点。在 DeepSeek-Coder-6.7B-Base 上,相同的方案产生了八个 SFT 检查点(1.0 到 9.6 epoch)。四个匹配的检查点(1.0、1.9、3.8 和 5.8 epoch)在三个种子上进行了 GRPO 训练。²²²种子 42、123、456。 #### GRPO 数据集。 我们从 SFT 训练中未使用的 KodCode-V1 (Xu and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib12)) 问题构建 GRPO 训练集,两个模型均采用相同方案。候选问题经过三轮去污染:针对 (i) SFT 训练集(\(\tau=0.75\)),(ii) HumanEval+ 和 MBPP(\(\tau=0.70\)),以及 (iii) 冻结的 40 问题深度评估子集(\(\tau=0.70\)),均通过 all-MiniLM-L6-v2 余弦相似度。对于每个幸存候选问题,我们从 GRPO 阶梯中间的一个校准检查点运行 16 次随机 rollout(\(T=1.0\),top_p=0.95),通过 pytest 计算通过次数,并保留 pass_count \(\in [1, 14]\) 的问题,排除既不可解(pass_count=0)又饱和(pass_count \(\geq 15\))的问题。这个“校准带”确保校准模型在每个保留问题上都有信号但未饱和,因此策略梯度对所有 GRPO 分支都带有方差。校准检查点是 Qwen 的 2.9 epoch SFT(\(\to 1,096\) 条记录)和 DeepSeek 的 3.8 epoch SFT(\(\to 1,104\) 条记录)。 #### GRPO 训练。 每个检查点都进行相同的 400 步 GRPO (Shao et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib7)),使用 DAPO 变体 (Yu and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib15))(损失函数见附录 A.2):组大小 \(g=8\),\(\beta=0\)(无 KL 惩罚),\(\varepsilon_{\mathrm{high}}=0.28\),学习率 \(1\times10^{-6}\),梯度裁剪 0.1。继续使用 SFT 中的相同 LoRA 适配器,消除适配器容量作为混淆因素。 #### 奖励和评估。 我们使用二元正确性奖励(如果所有单元测试通过则 \(+2.0\),否则为 0)。排除格式奖励以防止掩盖能力信号。评估每 50 个 GRPO 步进行一次,使用冻结的 40 问题 HumanEval+ 子集 (Liu et al., 2023 (https://arxiv.org/html/2606.18487#bib.bib13))(\(n=20\),\(T=1.0\)),通过 Chen 等人 (2021 (https://arxiv.org/html/2606.18487#bib.bib2)) 的无偏估计器报告 pass@{1,10}(附录 A.1)。40 个问题 ID 在运行中固定,并保持 HumanEval+ 的难度分布。熵每 10 步在一个 5 问题子集上探测,作为平均下一个 token 熵 \(-\sum_v p_v \log p_v\)(单位为 nat),在生成起始点通过单次前向传播仅在提示 token 上测量(不生成完成)。训练内探测取这 5 个健康检查问题中每个步骤的最小值,而 RL 前探测(表 1 (https://arxiv.org/html/2606.18487#S4.T1))平均了 40 个问题;两者的顺序一致。 ## 4 结果 选择得分最高的 SFT 检查点用于 GRPO 这一标准实践,在每个种子、每个深度上都选出了最差的 GRPO 初始化器,峰值 pass@10 的差距为 0.325(1.0 epoch 时为 0.806 vs 5.8 epoch 时为 0.481;表 1 (https://arxiv.org/html/2606.18487#S4.T1))。这一失败是机械性的:SFT 过度训练压缩了输出分布,使得较深的检查点在早期 GRPO 期间面临跨越梯度消失阈值 \(p^*(8)\) 的高风险。§4.1 (https://arxiv.org/html/2606.18487#S4.SS1) 建立了排名反转,§4.2 (https://arxiv.org/html/2606.18487#S4.SS2) 将熵崩溃发展为其机制,§4.3 (https://arxiv.org/html/2606.18487#S4.SS3) 将其操作化为两阶段诊断,§4.4 (https://arxiv.org/html/2606.18487#S4.SS4) 测试了简单的后验 GRPO 和 SFT 干预措施。 表 1: SFT 阶梯总结。RL 前熵和 pass@1(\(T=1.0\),\(n=128\));GRPO 峰值 pass@10 = 3 种子均值在标准 50 步区间上的最大值(\(n=20\),训练内)。均值 \(\pm\) 半极差,3 个种子。绝对 pass@10 水平在不同模型间不可比(不同家族、能力上限、完成长度);阶梯内排序才是比较的要点。每个分支的表格。

相似文章

当RL在SFT后失效:恢复模型可塑性以实现稳健的SFT到RL交接

arXiv cs.LG

本文研究了在大型语言模型的先SFT后RL流程中,过度监督微调(SFT)后模型可塑性的丧失问题,并提出了一种名为Rejuvenation的方法,该方法通过基于基线的模型融合和定向神经元重置来恢复可塑性,从而持续提升RL性能。

预训练期间的RL探索:重新审视LLM训练的策略优化

arXiv cs.LG

哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。

@johnschulman2: PPO在LLM时代迎来了第二波,原因超出了原始论文的预期——重要性比率目标会修正由数值误差、异步训练和前向传播噪声引起的偏差——而裁剪目标通过一种我们当初发表时未知的机制影响熵(DAPO, https://arxiv.org/abs/2509.26114)

X AI KOLs Following

本文揭示了PPO和GRPO中的裁剪机制在LLM的RLVR中引入了熵偏差:低裁剪增加熵,高裁剪减少熵。作者证明,即使在随机奖励的情况下,标准裁剪也会降低熵,并表明调整低裁剪可以防止熵塌陷并促进探索。