data-recipe

标签

Cards List
#data-recipe

超越奖励工程:长上下文强化学习的数据配方

arXiv cs.CL · 2026-06-18 缓存

本文表明,通过精心设计的长上下文强化学习数据配方,结合基于结果的最小GRPO,能够显著提升多个模型和基准测试的推理能力,并迁移到GAIA和BrowseComp等智能体任务。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈