action-dependent-baseline

标签

Cards List
#action-dependent-baseline

使用动作相关分解基线的策略梯度方差缩减

OpenAI Blog · 2018-03-20 缓存

# 使用动作相关分解基线的策略梯度方差缩减 来源: [https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/](https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/) OpenAI## 摘要 策略梯度方法在深度强化学习中取得了巨大成功,但梯度估计的方差很高。高方差问题特别

0 人收藏 0 人点赞
← 返回首页

提交意见反馈