标签
本文提出ReMax,一种新的强化学习目标函数,通过基于多个样本的期望最大回报来评估策略,从而将探索作为涌现属性引入,无需显式的探索奖励。作者推导了策略梯度公式,并提出了RePPO,一种PPO变体,在MinAtar和Craftax基准测试上实现了高效探索。