reappo

#reappo

基于重试的策略梯度强化学习中探索的涌现

arXiv cs.LG ↗ · 2026-06-02 缓存

本文提出ReMax，一种新的强化学习目标函数，通过基于多个样本的期望最大回报来评估策略，从而将探索作为涌现属性引入，无需显式的探索奖励。作者推导了策略梯度公式，并提出了RePPO，一种PPO变体，在MinAtar和Craftax基准测试上实现了高效探索。

0 人收藏 0 人点赞