标签
本文揭示了PPO和GRPO中的裁剪机制在LLM的RLVR中引入了熵偏差:低裁剪增加熵,高裁剪减少熵。作者证明,即使在随机奖励的情况下,标准裁剪也会降低熵,并表明调整低裁剪可以防止熵塌陷并促进探索。