group-normalization

标签

Cards List
#group-normalization

重新思考Critic-Free RLVR中的分组

arXiv cs.LG · 2026-06-17 缓存

本文重新思考了在大型语言模型的无评论家强化学习中分组的作用,并提出了负令牌过滤策略,使得每个提示只需一次rollout即可实现稳定训练,在推理和代理任务上取得了与基于分组的方法相当或更好的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈