critic-free

#critic-free

重新思考Critic-Free RLVR中的分组

arXiv cs.LG ↗ · 2026-06-17 缓存

本文重新思考了在大型语言模型的无评论家强化学习中分组的作用，并提出了负令牌过滤策略，使得每个提示只需一次rollout即可实现稳定训练，在推理和代理任务上取得了与基于分组的方法相当或更好的性能。

0 人收藏 0 人点赞