rollout-editing

标签

Cards List
#rollout-editing

Dynamic Rollout Editing:减少RL训练推理模型中的过度思考

arXiv cs.CL · 2026-06-17 缓存

本文介绍了一种训练时干预方法——动态展开编辑(Dynamic Rollout Editing, DRE),用于减少GRPO式强化学习推理模型中的过度思考。DRE通过保留可到达解的路径前缀并偏好经过验证的较短版本,来编辑成功轨迹,从而削弱对不必要思考的偏好。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈