多目标强化学习:具有挑战性的机器人环境与研究建议

OpenAI Blog 论文

摘要

OpenAI 推出了一套具有挑战性的多目标强化学习任务,使用 Fetch 和 Shadow Dexterous Hand 硬件,集成到 OpenAI Gym 中,并提出了改进强化学习算法的研究方向。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:43

# 多目标强化学习:具有挑战性的机器人环境和研究呼吁 来源:https://openai.com/index/multi-goal-reinforcement-learning/ OpenAI ## 摘要 本技术报告有两个目的。首先,它介绍了一套基于现有机器人硬件的具有挑战性的连续控制任务(已与 OpenAI Gym 集成)。这些任务包括使用 Fetch 机械臂进行推动、滑动和抓取放置,以及使用 Shadow Dexterous Hand 进行手部物体操作。所有任务都具有稀疏的二元奖励,并遵循多目标强化学习(RL)框架,其中代理通过额外输入被告知要做什么。论文的第二部分提出了一系列具体的研究思路,用于改进 RL 算法,其中大多数与多目标 RL 和后见之明经验回放(Hindsight Experience Replay)相关。

相似文章

研究请求 2.0

OpenAI Blog

# 研究请求 2.0 来源:[https://openai.com/index/requests-for-research-2/](https://openai.com/index/requests-for-research-2/) OpenAI 我们发布了一批七个未解决的问题,这些问题在 OpenAI 的研究过程中出现。如果你不确定从何处开始,这里有一些已解决的入门问题。⭐ 训练一个 LSTM 来解决 `XOR` 问题:即,给定一个比特序列,确定其奇偶性。[LSTM⁠\(opens in a new window\)](http://colah.github.io/posts

OpenAI Gym Beta

OpenAI Blog

OpenAI 发布了 OpenAI Gym 公开测试版,这是一个用于开发和比较强化学习算法的工具包,包含不断增长的环境套件和可复现研究的平台。该工具包旨在标准化强化学习基准,并为研究社区提供多样化、易于使用的环境。

从仿真泛化

OpenAI Blog

# 从仿真泛化 来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场,这可能会给人一种印象,即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数,比如行走任务,可以根据行进距离来评分

机器人研究的关键要素

OpenAI Blog

OpenAI 推出了Hindsight Experience Replay (HER),这是一种强化学习技术,使机器人能够通过将实现的替代结果追溯性地作为成功目标来从失败的尝试中学习,即使在奖励信号稀疏的情况下也能进行学习。

Safety Gym

OpenAI Blog

OpenAI 推出 Safety Gym,这是一个新的基准环境和工具包,用于研究受约束的强化学习和安全探索。该平台包含多个机器人和任务,旨在通过成本函数与奖励函数一起量化和衡量安全探索。