off-policy-learning

#off-policy-learning

机器人研究的关键要素

OpenAI Blog ↗ · 2018-02-26 缓存

OpenAI 推出了Hindsight Experience Replay (HER)，这是一种强化学习技术，使机器人能够通过将实现的替代结果追溯性地作为成功目标来从失败的尝试中学习，即使在奖励信号稀疏的情况下也能进行学习。

0 人收藏 0 人点赞