zero-reward

标签

Cards List
#zero-reward

TD-Grokking:通过训练时分解从零奖励问题中学习

arXiv cs.LG · 6小时前 缓存

提出TD-Grokking,一种训练时分解框架,递归地将棘手的零奖励问题分解为可验证的子问题,使大语言模型能够从失败轨迹中学习。在数学和医学推理任务上优于普通GRPO及基线方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈