reappo

标签

Cards List
#reappo

基于重试的策略梯度强化学习中探索的涌现

arXiv cs.LG · 2026-06-02 缓存

本文提出ReMax,一种新的强化学习目标函数,通过基于多个样本的期望最大回报来评估策略,从而将探索作为涌现属性引入,无需显式的探索奖励。作者推导了策略梯度公式,并提出了RePPO,一种PPO变体,在MinAtar和Craftax基准测试上实现了高效探索。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈