@svlevine: 我们可以学习一个模型,为机器人强化学习提供塑造的“过程奖励”,它会随着策略的改进而自动演变…
摘要
这项工作提出了一个模型,该模型学习塑造的“过程奖励”用于机器人强化学习,该奖励会随着策略的改进而自动演变,从而在基准测试和实际环境中提升性能。
我们可以学习一个模型,为机器人强化学习提供塑造的“过程奖励”,它会随着策略的改进而自动演变。这提高了基准测试的性能,并且在真实世界中也能发挥作用!与Raymond Tsao和@ajwagenmaker一起完成的有趣新工作 https://t.co/nBYdXwBqbW
查看缓存全文
缓存时间: 2026/06/26 14:13
我们可以学习一个模型,为机器人强化学习提供塑形的“过程奖励”,该奖励会随着策略的改进而自动演化。这提升了基准测试的性能,并且在现实世界中也能奏效!与 Raymond Tsao 和 @ajwagenmaker 的一些有趣新工作 https://t.co/nBYdXwBqbW
相似文章
EvoTrainer:面向自主智能体强化学习的LLM策略与训练框架协同进化
EvoTrainer提出了一种自主训练框架,通过经验反馈协同进化LLM策略与训练框架,在数学推理、代码生成以及长期软件工程任务上超越了人工设计的强化学习基线。
进化策略梯度
OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。
RLHF的另一面:基于策略内反馈的奖励模型自监督改进
SAVE框架通过使用价值函数对策略内响应进行评分,并通过对比目标更新模型,从而改善奖励模型训练,在六个基准测试中取得了优于其他方法的结果。
ProcessThinker: 通过基于展开的过程奖励增强多模态大语言模型推理
ProcessThinker 引入了一种实用的后训练流程,无需训练显式的过程奖励模型即可提供步骤级的过程奖励。它利用基于展开的奖励为多模态大语言模型中的多步推理提供密集的信用分配,在视频基准测试上持续提升性能。
@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来:训练你的自教师……
介绍了教学强化学习(Pedagogical RL),这是一种新范式,模型学会利用特权信息主动采样成功且易于遵循的轨迹,从而成为自我教师,相比GRPO和同策略蒸馏方法,实现了高达40%的相对提升。