grouped-policy-optimization

#grouped-policy-optimization

GAGPO：广义优势分组策略优化

arXiv cs.AI ↗ · 昨天缓存

GAGPO提出了一种无评论家的强化学习方法，在多方交互的自主任务中，利用非参数分组价值代理进行步级信用分配，在ALFWorld和WebShop上超越了强基线模型。

0 人收藏 0 人点赞