机器人研究的关键要素

OpenAI Blog 论文

摘要

OpenAI 推出了Hindsight Experience Replay (HER),这是一种强化学习技术,使机器人能够通过将实现的替代结果追溯性地作为成功目标来从失败的尝试中学习,即使在奖励信号稀疏的情况下也能进行学习。

我们发布了八个模拟机器人环境和Baselines实现的Hindsight Experience Replay,这些都是去年研究开发的成果。我们已使用这些环境来训练能够在物理机器人上运行的模型。我们还发布了一份机器人研究请求清单。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:45

# 机器人研究的成分 来源:https://openai.com/index/ingredients-for-robotics-research/ 为了理解 HER 的作用,我们来看看它在 FetchSlide(https://gym.openai.com/envs/FetchSlide-v0)这个任务中的应用。在这个任务中,我们需要学会滑动冰球穿过桌子并击中目标。我们的第一次尝试很可能不会成功,除非我们非常幸运。接下来的几次尝试也可能失败。传统强化学习算法无法从这种经验中学到任何东西,因为它们只会获得恒定的奖励(在这个例子中是`-1`),其中不包含任何学习信号。 HER 形式化的关键洞察是人类凭直觉所做的事情:即使我们没有成功完成特定目标,我们至少完成了另一个目标。那么,为什么不假装我们本来就想要完成这个目标呢,而不是最初设定的目标呢?通过这种替换,强化学习算法可以获得学习信号,因为它已经完成了*某个*目标;即使不是我们最初想要完成的那个。如果我们重复这个过程,最终我们将学会如何完成任意目标,包括我们真正想要完成的目标。 这种方法让我们学会滑动冰球穿过桌子,即使我们的奖励完全稀疏,即使我们在早期可能从未真正击中过所需的目标。我们称这种技术为后见之明经验回放(Hindsight Experience Replay),因为它重放经验(这是离策略强化学习算法如 DQN(https://openai.com/index/openai-baselines-dqn/)和 DDPG(https://arxiv.org/abs/1509.02971)中常用的技术),但目标是在情节结束后以后见之明选择的。因此,HER 可以与任何离策略强化学习算法结合(例如,HER 可以与 DDPG 结合,我们将其写作"DDPG + HER")。

相似文章

后见之明经验回放

OpenAI Blog

# 后见之明经验回放 来源:[https://openai.com/index/hindsight-experience-replay/](https://openai.com/index/hindsight-experience-replay/) ## 摘要 处理稀疏奖励是强化学习(RL)中最大的挑战之一。我们提出了一种名为后见之明经验回放的新颖技术,它允许从稀疏二元奖励中进行样本高效学习,因此避免了复杂的奖励工程设计的需要。它可以与任意组合

从仿真泛化

OpenAI Blog

# 从仿真泛化 来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场,这可能会给人一种印象,即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数,比如行走任务,可以根据行进距离来评分

从人类偏好中学习

OpenAI Blog

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。

学习的机器人

OpenAI Blog

# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述⁠\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟