@blc_16: 如果你想了解为什么强化学习在处理长视界智能体任务时表现不佳,这是一个很好的解释。核心问题在于……
摘要
该帖子解释了强化学习因奖励稀疏而在长视界任务中遇到的困难,并介绍了 GEPA 这一方法。GEPA 利用轨迹层级的文本反思来保留更丰富的反馈信号,以优化学习过程。
如果你想了解为什么强化学习在处理长视界智能体任务时表现不佳,这是一个很好的解释。核心问题在于,稀疏奖励丢弃了轨迹中大部分有用信息。GEPA 试图直接从轨迹本身进行学习,利用文本空间中的反思,而不仅仅依赖于最终奖励进行优化。GEPA 生成对轨迹的文本批评,提出提示修改建议,然后在探索与利用之间的帕累托前沿选择更新策略。它没有将所有信息简化为一个单一的奖励数值,而是保留了更多关于运行失败原因的信息,并利用这些信息做出可解释的调整。观察人们如何将这种轨迹层级的反思与强化学习相结合——使用强化学习进行优化,同时保留关于智能体成功或失败原因的更丰富信号——将会很有趣。
相似文章
StraTA:通过策略轨迹抽象激励智能体强化学习
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
@adithya_s_k: https://x.com/adithya_s_k/status/2054961319179420035
分析为什么强化学习在编程任务中因可验证奖励而受到青睐,以及新兴框架Harbor如何解决RL训练中环境复杂度的瓶颈。
GoLongRL:面向能力的长上下文强化学习与多任务对齐
GoLongRL 提出了一种开源方法,通过面向能力的数据构建和 TMN-Reweight 方法,实现具有多样化奖励优化的长上下文强化学习。
@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来:训练你的自教师……
介绍了教学强化学习(Pedagogical RL),这是一种新范式,模型学会利用特权信息主动采样成功且易于遵循的轨迹,从而成为自我教师,相比GRPO和同策略蒸馏方法,实现了高达40%的相对提升。
@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...
MIT 引入了 Pedagogical RL,该方法通过惩罚令人意外的步骤来训练一个教师模型,使其为学生模型生成易于学习的轨迹,从而提高强化学习的训练效率。