rank-inversion

标签

Cards List
#rank-inversion

SFT过训练预测RLVR下因熵崩溃导致的排名反转

arXiv cs.LG · 6天前 缓存

本文证明,为GRPO选择pass@1最高的SFT检查点可能会失败,因为SFT过训练压缩了输出多样性,导致强化学习中的熵崩溃和排名反转。在Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B上的实验表明,预RL熵与GRPO结果呈正相关,并且一个两阶段诊断方法可以检测高风险检查点。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈