data-recipe

#data-recipe

超越奖励工程：长上下文强化学习的数据配方

arXiv cs.CL ↗ · 2026-06-18 缓存

本文表明，通过精心设计的长上下文强化学习数据配方，结合基于结果的最小GRPO，能够显著提升多个模型和基准测试的推理能力，并迁移到GAIA和BrowseComp等智能体任务。

0 人收藏 0 人点赞