rollout-editing

#rollout-editing

Dynamic Rollout Editing：减少RL训练推理模型中的过度思考

arXiv cs.CL ↗ · 2026-06-17 缓存

本文介绍了一种训练时干预方法——动态展开编辑（Dynamic Rollout Editing, DRE），用于减少GRPO式强化学习推理模型中的过度思考。DRE通过保留可到达解的路径前缀并偏好经过验证的较短版本，来编辑成功轨迹，从而削弱对不必要思考的偏好。

0 人收藏 0 人点赞