机器人研究的关键要素

OpenAI Blog 2018/02/26 08:00 论文

摘要

OpenAI 推出了Hindsight Experience Replay (HER)，这是一种强化学习技术，使机器人能够通过将实现的替代结果追溯性地作为成功目标来从失败的尝试中学习，即使在奖励信号稀疏的情况下也能进行学习。

我们发布了八个模拟机器人环境和Baselines实现的Hindsight Experience Replay，这些都是去年研究开发的成果。我们已使用这些环境来训练能够在物理机器人上运行的模型。我们还发布了一份机器人研究请求清单。

查看缓存全文

缓存时间: 2026/04/20 14:45

# 机器人研究的成分来源：https://openai.com/index/ingredients-for-robotics-research/ 为了理解 HER 的作用，我们来看看它在 FetchSlide（https://gym.openai.com/envs/FetchSlide-v0）这个任务中的应用。在这个任务中，我们需要学会滑动冰球穿过桌子并击中目标。我们的第一次尝试很可能不会成功，除非我们非常幸运。接下来的几次尝试也可能失败。传统强化学习算法无法从这种经验中学到任何东西，因为它们只会获得恒定的奖励（在这个例子中是`-1`），其中不包含任何学习信号。 HER 形式化的关键洞察是人类凭直觉所做的事情：即使我们没有成功完成特定目标，我们至少完成了另一个目标。那么，为什么不假装我们本来就想要完成这个目标呢，而不是最初设定的目标呢？通过这种替换，强化学习算法可以获得学习信号，因为它已经完成了*某个*目标；即使不是我们最初想要完成的那个。如果我们重复这个过程，最终我们将学会如何完成任意目标，包括我们真正想要完成的目标。这种方法让我们学会滑动冰球穿过桌子，即使我们的奖励完全稀疏，即使我们在早期可能从未真正击中过所需的目标。我们称这种技术为后见之明经验回放（Hindsight Experience Replay），因为它重放经验（这是离策略强化学习算法如 DQN（https://openai.com/index/openai-baselines-dqn/）和 DDPG（https://arxiv.org/abs/1509.02971）中常用的技术），但目标是在情节结束后以后见之明选择的。因此，HER 可以与任何离策略强化学习算法结合（例如，HER 可以与 DDPG 结合，我们将其写作"DDPG + HER"）。

机器人研究的关键要素

相似文章

后见之明经验回放

从仿真泛化

多目标强化学习：具有挑战性的机器人环境与研究建议

从人类偏好中学习

学习的机器人

提交意见反馈