zero-reward

#zero-reward

TD-Grokking：通过训练时分解从零奖励问题中学习

arXiv cs.LG ↗ · 6小时前缓存

提出TD-Grokking，一种训练时分解框架，递归地将棘手的零奖励问题分解为可验证的子问题，使大语言模型能够从失败轨迹中学习。在数学和医学推理任务上优于普通GRPO及基线方法。

0 人收藏 0 人点赞