后见之明经验回放

OpenAI Blog 2017/07/05 07:00 论文

摘要

# 后见之明经验回放来源：[https://openai.com/index/hindsight-experience-replay/](https://openai.com/index/hindsight-experience-replay/) ## 摘要处理稀疏奖励是强化学习（RL）中最大的挑战之一。我们提出了一种名为后见之明经验回放的新颖技术，它允许从稀疏二元奖励中进行样本高效学习，因此避免了复杂的奖励工程设计的需要。它可以与任意组合

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:55

# 后见之明经验回放来源: https://openai.com/index/hindsight-experience-replay/ ## 摘要处理稀疏奖励是强化学习（RL）中最大的挑战之一。我们提出了一种名为后见之明经验回放（Hindsight Experience Replay）的新技术，它能够从稀疏的二值奖励中进行样本高效学习，从而避免了复杂的奖励工程设计。该方法可以与任意离策略强化学习算法相结合，并可视为一种隐式课程学习。我们在机械臂操纵物体的任务上展示了我们的方法。特别是，我们在三个不同的任务上进行了实验：推动、滑动和拾取放置，在每种情况下仅使用二值奖励来指示任务是否完成。我们的消融研究表明，后见之明经验回放是在这些具有挑战性的环境中使训练成为可能的关键要素。我们展示了在物理仿真上训练的策略可以部署到物理机器人上并成功完成任务。

后见之明经验回放

相似文章

机器人研究的关键要素

从仿真泛化

HERO: 从环境观察中进行事后增强反思的智能体自蒸馏

从人类偏好中学习

从单个演示中学习蒙特祖玛的复仇

提交意见反馈