BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
critic-free
标签
Cards
List
#critic-free
重新思考Critic-Free RLVR中的分组
arXiv cs.LG
↗
· 2026-06-17
缓存
本文重新思考了在大型语言模型的无评论家强化学习中分组的作用,并提出了负令牌过滤策略,使得每个提示只需一次rollout即可实现稳定训练,在推理和代理任务上取得了与基于分组的方法相当或更好的性能。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交