SFT过训练预测RLVR下因熵崩溃导致的排名反转

arXiv cs.LG 2026/06/18 04:00 论文

摘要

本文证明，为GRPO选择pass@1最高的SFT检查点可能会失败，因为SFT过训练压缩了输出多样性，导致强化学习中的熵崩溃和排名反转。在Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B上的实验表明，预RL熵与GRPO结果呈正相关，并且一个两阶段诊断方法可以检测高风险检查点。

arXiv:2606.18487v1 Announce Type: new 摘要：当SFT压缩了rollout分布时，为GRPO选择pass@1最高的SFT检查点的标准启发式方法可能会失败。对于二元奖励，组内优势方差的期望为$p(1{-}p)(g{-}1)/g$；当早期GRPO将$p$驱动到$p^*(g)$以下时，大多数组具有相同的奖励，因此无法提供组相对信号。我们研究了Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B的SFT深度阶梯。在Qwen2.5-Coder-3B上，我们测试了五个深度和三个随机种子；在DeepSeek-Coder-6.7B上，测试了四个匹配深度和三个随机种子。在Qwen上，预RL的pass@1随SFT深度增加而上升，但GRPO的最高pass@10从$0.806$下降到$0.481$（3种子均值，$n{=}20$）；预RL熵与GRPO结果呈正相关（$\rho{=}{+}0.69$）。在DeepSeek上，pass@1仍然远高于$p^*(8){=}0.083$，GRPO结果压缩而非反转。一个两阶段诊断方法，结合预RL熵分流和早期GRPO熵监控，可以标记高风险检查点并尽早停止失败的运行。在我们的设置中，简单的KL参考正则化和标签平滑变体无法挽救崩溃的Qwen检查点，这表明失败并非简单的GRPO超参数伪影。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:43

# SFT过度训练预测RLVR下通过熵崩溃的排名反转 来源: https://arxiv.org/html/2606.18487 ###### 摘要 选择具有最高 pass@1 的 SFT 检查点用于 GRPO 的标准启发式方法，当 SFT 压缩了 rollout 分布时可能会失效。对于二元奖励，组内优势方差的期望值为 \(p(1-p)(g-1)/g\)；当早期 GRPO 将 \(p\) 推至 \(p^*(g)\) 以下时，大多数组获得相同奖励，不再提供组相对信号。我们研究了 Qwen2.5-Coder-3B 和 DeepSeek-Coder-6.7B 的 SFT 深度阶梯。我们在五个深度和三个种子上测试了 Qwen2.5-Coder-3B，并在四个匹配深度和三个种子上测试了 DeepSeek-Coder-6.7B。在 Qwen 上，RL 前的 pass@1 随 SFT 深度增加而上升，但 GRPO 峰值 pass@10 从 0.806 降至 0.481（3 种子均值，\(n=20\)）；RL 前熵与 GRPO 结果正相关（\(\rho=+0.69\)）。在 DeepSeek 上，pass@1 仍远高于 \(p^*(8)=0.083\)，GRPO 结果趋于压缩而非反转。一种两阶段诊断方法，结合 RL 前熵分流和早期 GRPO 熵监测，可标记高风险检查点并提前停止失败运行。在我们的设置中，简单的 KL 参考正则化和标签平滑变体无法挽救崩溃的 Qwen 检查点，表明该故障并非琐碎的 GRPO 超参数伪影。 强化学习，监督微调，GRPO，熵崩溃，代码生成，排名反转 ## 1 引言 代码生成的标准后训练流程是应用监督微调（SFT）然后使用可验证奖励进行强化学习（RLVR）(Shao et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib7); Guo et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib6))，选择得分最高的 SFT 检查点进行 RL。¹¹¹代码可从 https://github.com/siddharthaphale/entropy-collapse-rlvr 获取 这一规则日益受到质疑：长时间 SFT 会导致记忆而非泛化 (Chu et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib11))，RLVR 会收窄推理边界 (Yue and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib4))，并且 pass@1 单独作为大规模模型 RL 后结果的预测指标能力较弱 (Kang et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib1))。我们证明，当 SFT 过度训练与策略进入熵崩溃相关时，这一标准具有误导性：在 Qwen2.5-Coder-3B-Base 的 SFT 深度阶梯上，GRPO 峰值 pass@10 从 0.806 单调下降至 0.481（3 种子均值），而 RL 前 pass@1 却 *上升*，且 pass@1 最高的检查点在每个种子中均逊于较浅的检查点。其机制是：SFT 过度训练压缩了输出多样性，消除了 GRPO 所需的梯度信号。在 DeepSeek-Coder-6.7B-Base 上的并行阶梯提供了一个机制边界（§4.1 (https://arxiv.org/html/2606.18487#S4.SS1)）。 先前关于 SFT 到 RL 过渡的工作主要关注数据组成 (Chu et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib11)) 或离线与在线分布不匹配 (Zhang et al., 2026 (https://arxiv.org/html/2606.18487#bib.bib14))，而非固定计算量下特定检查点的选择。聚合预测指标无法诊断个体失败。Pass@64 结合泛化损失可预测 RL 后结果，达到 \(R^2=0.94\) (Kang et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib1))，远超 pass@1 单独使用，但两个具有相同 pass@64 的检查点可能携带截然不同的熵分布。大 \(k\) 下的 pass@k 衡量问题是否 *曾经* 可解而非 *多么可靠*；检查点特定的方差问题本质上超出了其范围 (Dragoi and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib8); Yue and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib4))。贪心 pass@1（\(T=0\)）在错误的温度下衡量能力；GRPO 运作的温度 \(T=1.0\) 下的 rollout 分布可能比贪心行为所指示的压缩得多。 我们做出三项有限贡献。首先，在二元奖励下，组内优势方差精确为 \(\mathbb{E}[\sigma_G^2] = p(1-p)(g-1)/g\)，从而得到一个多数退化阈值 \(p^*(g)\)，在此阈值下 GRPO 的组相对信号结构性崩溃（命题 3 (https://arxiv.org/html/2606.18487#Thmproposition3)）。其次，在 Qwen2.5-Coder-3B-Base 上，我们识别出一个排名反转案例研究：SFT 深度提高了 RL 前 pass@1，同时降低了 GRPO 峰值 pass@10，且该故障由熵崩溃和奖励方差崩溃解释。第三，在 DeepSeek-Coder-6.7B-Base 上，pass@1 仍远高于 \(p^*(8)\)，GRPO 排名趋于压缩而非反转，提供了一个对比性的安全区间。用于分流的确切熵阈值是针对 Qwen 阶梯校准的；与模型无关的声明是检查点排序和风险信号，而非通用阈值。两种自然的干预措施——KL 惩罚和标签平滑——在我们的设置中无法挽救崩溃的检查点；故障似乎出现在所测试 GRPO 变体的上游。我们在三个随机种子上进行了验证。第 2 节 (https://arxiv.org/html/2606.18487#S2) 回顾相关工作；第 3 节 (https://arxiv.org/html/2606.18487#S3) 介绍实验设置；第 4 节 (https://arxiv.org/html/2606.18487#S4) 介绍排名反转、机制、诊断、跨模型验证和干预措施；正式推导见附录 A.3。 ## 2 相关工作 #### SFT 过度训练限制 RL。 SFT 记忆解决方案而 RL 在它们之间进行泛化 (Chu et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib11))。在 Kang 等人 (2025 (https://arxiv.org/html/2606.18487#bib.bib1)) 的跨模型研究中，pass@1 作为 RL 后结果的预测指标远弱于 pass@64 与泛化损失的结合，并且将 SFT 扩展到两个 epoch 以上会降低数百个模型的 GRPO 结果。在我们的家族内阶梯中，pass@1 与 RL 后峰值 pass@10 *负相关*（\(\rho = -0.75\)，§4.1 (https://arxiv.org/html/2606.18487#S4.SS1)）。Zhang 等人 (2026 (https://arxiv.org/html/2606.18487#bib.bib14)) 独立证明了数学推理中的排名反转，将其归因于离线与在线分布不匹配，并提出了 PEAR 作为补救措施；我们的熵分析通过命题 1 (https://arxiv.org/html/2606.18487#Thmproposition1) 提供了机制解释，并识别出故障发生在 SFT 阶段而非 SFT 损失目标。 #### pass@k 作为准备就绪代理的局限性。 大 k 下的 pass@k 衡量问题是否 *曾经* 可解而非 *多么可靠* (Dragoi and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib8))。由于 RLVR 收窄而非扩展推理边界，pass@k 捕获了能力上限，但无法说明 RL 压缩是否成功 (Yue and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib4))。直接针对输出分布范围提出的替代方案（如多样性比率 \(\Delta_k\)）在低 pass@1 时表现不佳（§4.2 (https://arxiv.org/html/2606.18487#S4.SS2)）。贪心 pass@1（\(T=0\)）因一个不同但相关的原因而失败：它在错误的温度下衡量能力。GRPO 在 \(T=1.0\) 下运作，检查点的输出分布可能比其贪心行为所暗示的压缩得多。 #### 熵作为约束条件。 Cui 等人 (2025 (https://arxiv.org/html/2606.18487#bib.bib9)) 表明 RL 性能上限由模型的初始熵决定，并提出了 Clip-Cov 来应对 *RL 期间* 的崩溃。我们的诊断处理前一个阶段：SFT 是否在 GRPO 开始之前就已耗尽熵。我们的 RL 前筛选补充了他们的 Clip-Cov 方法：我们识别出哪些检查点需要在训练前进行熵保留，而他们则在训练期间维持熵。 #### RL 算法与多样性要求。 GRPO 的无评论家设计使得故障模式最为清晰：当组内所有 rollout 获得相同奖励时，组相对优势为零，梯度消失 (Shao et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib7))。PPO 和 RLOO 通过其基线部分掩盖了这一点；我们使用 GRPO 正是因为它使得熵崩溃在训练信号中可观察。训练时的熵保留方法 (Chen et al., 2025 (https://arxiv.org/html/2606.18487#bib.bib10); Walder and Karkhanis, 2025 (https://arxiv.org/html/2606.18487#bib.bib5)) 是互补的；我们的诊断识别出哪些检查点在训练开始前就需要这些方法。 #### 熵崩溃作为可塑性丧失的症状。 可塑性丧失（网络在经过长时间优化后逐渐失去适应新训练信号的能力）在深度 RL 中已有充分记录 (Lyle et al., 2023 (https://arxiv.org/html/2606.18487#bib.bib16); Nikishin et al., 2022 (https://arxiv.org/html/2606.18487#bib.bib17); Dohare et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib18))。熵崩溃与此图景一致，其实际优势在于熵可在 RL 前测量，而有效秩和死亡神经元分数需要额外仪器。保留可塑性的方法，包括周期性网络重置 (Nikishin et al., 2022 (https://arxiv.org/html/2606.18487#bib.bib17)) 和向初始权重的正则化 (Kumar et al., 2023 (https://arxiv.org/html/2606.18487#bib.bib19))，是互补的：我们的诊断识别出在消耗 RL 计算之前哪些检查点已经经历熵崩溃，而那些方法则解决在训练期间维持可塑性的问题。 ## 3 方法 我们在主要研究中将 SFT 时长作为唯一的自变量：所有检查点共享相同的架构、数据、超参数和评估协议。§4.4 (https://arxiv.org/html/2606.18487#S4.SS4) 中的消融实验改变了 GRPO KL 惩罚，并对 5.8 epoch 检查点应用了标签平滑。关于 DeepSeek-Coder-6.7B-Base 的跨模型线程贯穿整个 §4 (https://arxiv.org/html/2606.18487#S4)，与 Qwen 阶梯并列，并在附录 A.5 中总结。 #### 模型。 两个基础模型在相同的训练方案下进行训练。主要阶梯使用 Qwen2.5-Coder-3B-Base (Hui et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib3))；跨模型阶梯使用 DeepSeek-Coder-6.7B-Base (Guo et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib6))。两者均以 BF16 和 LoRA（\(r=128\)，\(\alpha=128\)，应用于所有线性层和嵌入层）进行微调。SFT 使用 AdamW 8 位，学习率 \(1\times10^{-5}\)，批量大小 16，恒定调度，权重衰减 0.001。在特定检查点训练开始前，先进行 100 步的格式预热，以学习 \(\to\) 代码输出格式。 #### SFT 数据集和检查点。 训练使用 5,000 个中等难度的 KodCode-V1 问题 (Xu and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib12))，通过嵌入余弦相似度（阈值 \(\tau=0.70\)，all-MiniLM-L6-v2，去除了池中 20.8% 的数据）对 HumanEval 和 MBPP 进行去污染。CoT 轨迹使用 Gemini 2.5 Flash 重新生成，目标是简洁推理（中位数 518 个 token），以适应 2,048 个 token 的上下文窗口而无需截断。为 Qwen 选择了跨越 1.0 到 5.8 epoch 的五个检查点用于 GRPO（表 1 (https://arxiv.org/html/2606.18487#S4.T1)）；我们在全文通过 SFT epoch 值来指代检查点。在 DeepSeek-Coder-6.7B-Base 上，相同的方案产生了八个 SFT 检查点（1.0 到 9.6 epoch）。四个匹配的检查点（1.0、1.9、3.8 和 5.8 epoch）在三个种子上进行了 GRPO 训练。²²²种子 42、123、456。 #### GRPO 数据集。 我们从 SFT 训练中未使用的 KodCode-V1 (Xu and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib12)) 问题构建 GRPO 训练集，两个模型均采用相同方案。候选问题经过三轮去污染：针对 (i) SFT 训练集（\(\tau=0.75\)），(ii) HumanEval+ 和 MBPP（\(\tau=0.70\)），以及 (iii) 冻结的 40 问题深度评估子集（\(\tau=0.70\)），均通过 all-MiniLM-L6-v2 余弦相似度。对于每个幸存候选问题，我们从 GRPO 阶梯中间的一个校准检查点运行 16 次随机 rollout（\(T=1.0\)，top_p=0.95），通过 pytest 计算通过次数，并保留 pass_count \(\in [1, 14]\) 的问题，排除既不可解（pass_count=0）又饱和（pass_count \(\geq 15\)）的问题。这个“校准带”确保校准模型在每个保留问题上都有信号但未饱和，因此策略梯度对所有 GRPO 分支都带有方差。校准检查点是 Qwen 的 2.9 epoch SFT（\(\to 1,096\) 条记录）和 DeepSeek 的 3.8 epoch SFT（\(\to 1,104\) 条记录）。 #### GRPO 训练。 每个检查点都进行相同的 400 步 GRPO (Shao et al., 2024 (https://arxiv.org/html/2606.18487#bib.bib7))，使用 DAPO 变体 (Yu and others, 2025 (https://arxiv.org/html/2606.18487#bib.bib15))（损失函数见附录 A.2）：组大小 \(g=8\)，\(\beta=0\)（无 KL 惩罚），\(\varepsilon_{\mathrm{high}}=0.28\)，学习率 \(1\times10^{-6}\)，梯度裁剪 0.1。继续使用 SFT 中的相同 LoRA 适配器，消除适配器容量作为混淆因素。 #### 奖励和评估。 我们使用二元正确性奖励（如果所有单元测试通过则 \(+2.0\)，否则为 0）。排除格式奖励以防止掩盖能力信号。评估每 50 个 GRPO 步进行一次，使用冻结的 40 问题 HumanEval+ 子集 (Liu et al., 2023 (https://arxiv.org/html/2606.18487#bib.bib13))（\(n=20\)，\(T=1.0\)），通过 Chen 等人 (2021 (https://arxiv.org/html/2606.18487#bib.bib2)) 的无偏估计器报告 pass@{1,10}（附录 A.1）。40 个问题 ID 在运行中固定，并保持 HumanEval+ 的难度分布。熵每 10 步在一个 5 问题子集上探测，作为平均下一个 token 熵 \(-\sum_v p_v \log p_v\)（单位为 nat），在生成起始点通过单次前向传播仅在提示 token 上测量（不生成完成）。训练内探测取这 5 个健康检查问题中每个步骤的最小值，而 RL 前探测（表 1 (https://arxiv.org/html/2606.18487#S4.T1)）平均了 40 个问题；两者的顺序一致。 ## 4 结果 选择得分最高的 SFT 检查点用于 GRPO 这一标准实践，在每个种子、每个深度上都选出了最差的 GRPO 初始化器，峰值 pass@10 的差距为 0.325（1.0 epoch 时为 0.806 vs 5.8 epoch 时为 0.481；表 1 (https://arxiv.org/html/2606.18487#S4.T1)）。这一失败是机械性的：SFT 过度训练压缩了输出分布，使得较深的检查点在早期 GRPO 期间面临跨越梯度消失阈值 \(p^*(8)\) 的高风险。§4.1 (https://arxiv.org/html/2606.18487#S4.SS1) 建立了排名反转，§4.2 (https://arxiv.org/html/2606.18487#S4.SS2) 将熵崩溃发展为其机制，§4.3 (https://arxiv.org/html/2606.18487#S4.SS3) 将其操作化为两阶段诊断，§4.4 (https://arxiv.org/html/2606.18487#S4.SS4) 测试了简单的后验 GRPO 和 SFT 干预措施。 表 1: SFT 阶梯总结。RL 前熵和 pass@1（\(T=1.0\)，\(n=128\)）；GRPO 峰值 pass@10 = 3 种子均值在标准 50 步区间上的最大值（\(n=20\)，训练内）。均值 \(\pm\) 半极差，3 个种子。绝对 pass@10 水平在不同模型间不可比（不同家族、能力上限、完成长度）；阶梯内排序才是比较的要点。每个分支的表格。

@johnschulman2: PPO在LLM时代迎来了第二波，原因超出了原始论文的预期——重要性比率目标会修正由数值误差、异步训练和前向传播噪声引起的偏差——而裁剪目标通过一种我们当初发表时未知的机制影响熵（DAPO, https://arxiv.org/abs/2509.26114）

X AI KOLs Following

本文揭示了PPO和GRPO中的裁剪机制在LLM的RLVR中引入了熵偏差：低裁剪增加熵，高裁剪减少熵。作者证明，即使在随机奖励的情况下，标准裁剪也会降低熵，并表明调整低裁剪可以防止熵塌陷并促进探索。

通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题

Hugging Face Daily Papers

本文介绍了 Entrocraft，这是一种用于强化学习的拒绝采样方法，通过控制熵调度来防止大语言模型的性能饱和。该方法展示了更强的泛化能力和更长的训练寿命，使较小规模的模型能够超越较大的基线模型。

SFT过训练预测RLVR下因熵崩溃导致的排名反转

相似文章

当RL在SFT后失效：恢复模型可塑性以实现稳健的SFT到RL交接

GRPO 下基于梯度的 LoRA 秩分配：一项实证研究

预训练期间的RL探索：重新审视LLM训练的策略优化

通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题

提交意见反馈