标签
本文介绍了一种训练时干预方法——动态展开编辑(Dynamic Rollout Editing, DRE),用于减少GRPO式强化学习推理模型中的过度思考。DRE通过保留可到达解的路径前缀并偏好经过验证的较短版本,来编辑成功轨迹,从而削弱对不必要思考的偏好。