标签
本文证明,为GRPO选择pass@1最高的SFT检查点可能会失败,因为SFT过训练压缩了输出多样性,导致强化学习中的熵崩溃和排名反转。在Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B上的实验表明,预RL熵与GRPO结果呈正相关,并且一个两阶段诊断方法可以检测高风险检查点。