标签
OpenAI 推出了Hindsight Experience Replay (HER),这是一种强化学习技术,使机器人能够通过将实现的替代结果追溯性地作为成功目标来从失败的尝试中学习,即使在奖励信号稀疏的情况下也能进行学习。
OpenAI 推出了一套具有挑战性的多目标强化学习任务,使用 Fetch 和 Shadow Dexterous Hand 硬件,集成到 OpenAI Gym 中,并提出了改进强化学习算法的研究方向。
# 从仿真泛化 来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场,这可能会给人一种印象,即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数,比如行走任务,可以根据行进距离来评分