action-dependent-baseline

#action-dependent-baseline

使用动作相关分解基线的策略梯度方差缩减

OpenAI Blog ↗ · 2018-03-20 缓存

# 使用动作相关分解基线的策略梯度方差缩减来源: [https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/](https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/) OpenAI## 摘要策略梯度方法在深度强化学习中取得了巨大成功，但梯度估计的方差很高。高方差问题特别

0 人收藏 0 人点赞

action-dependent-baseline

使用动作相关分解基线的策略梯度方差缩减

提交意见反馈