BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
zero-reward
标签
Cards
List
#zero-reward
TD-Grokking:通过训练时分解从零奖励问题中学习
arXiv cs.LG
↗
· 6小时前
缓存
提出TD-Grokking,一种训练时分解框架,递归地将棘手的零奖励问题分解为可验证的子问题,使大语言模型能够从失败轨迹中学习。在数学和医学推理任务上优于普通GRPO及基线方法。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交