grouped-policy-optimization

标签

Cards List
#grouped-policy-optimization

GAGPO:广义优势分组策略优化

arXiv cs.AI · 昨天 缓存

GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈