rank-inversion

#rank-inversion

SFT过训练预测RLVR下因熵崩溃导致的排名反转

arXiv cs.LG ↗ · 6天前缓存

本文证明，为GRPO选择pass@1最高的SFT检查点可能会失败，因为SFT过训练压缩了输出多样性，导致强化学习中的熵崩溃和排名反转。在Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B上的实验表明，预RL熵与GRPO结果呈正相关，并且一个两阶段诊断方法可以检测高风险检查点。

0 人收藏 0 人点赞