policy-gradients

#policy-gradients

基于路径策略梯度的非短视主动特征获取

arXiv cs.LG ↗ · 2天前缓存

本文提出了 NM-PPG，这是一种利用路径策略梯度优化昂贵预测场景中顺序特征选择的非短视主动特征获取方法。

0 人收藏 0 人点赞

#policy-gradients

从单个演示中学习蒙特祖玛的复仇

OpenAI Blog ↗ · 2018-07-04 缓存

OpenAI 展示了一种通过单个人类演示来训练强化学习智能体玩蒙特祖玛的复仇的方法，通过课程学习和仔细的超参数调优来解决稀疏奖励的挑战。该方法在这款臭名昭著的 Atari 游戏上取得了强劲表现，但在其他游戏上的泛化能力有限。

0 人收藏 0 人点赞

#policy-gradients

进化策略梯度

OpenAI Blog ↗ · 2018-04-18 缓存

OpenAI 推出进化策略梯度（EPG），这是一种元学习方法，通过进化而非直接学习策略来学习损失函数，使强化学习代理能够通过利用类似人类技能迁移的先验经验，更好地跨任务泛化。

0 人收藏 0 人点赞

#policy-gradients

# 策略梯度与软Q学习之间的等价性来源：[https://openai.com/index/equivalence-between-policy-gradients-and-soft-q-learning/](https://openai.com/index/equivalence-between-policy-gradients-and-soft-q-learning/) OpenAI ## 摘要策略梯度方法和Q学习方法是无模型强化学习中两种主要方法。Q学习方法在有效时样本效率很高，但目前还不太清楚它们为什么能够工作

0 人收藏 0 人点赞

policy-gradients

基于路径策略梯度的非短视主动特征获取

从单个演示中学习蒙特祖玛的复仇

进化策略梯度

策略梯度与软Q学习之间的等价性

提交意见反馈