学习灵巧性

OpenAI Blog 2018/07/30 07:00 新闻

robotics reinforcement-learning simulation dexterity hand-manipulation transfer-learning

摘要

OpenAI 宣布推出 Dactyl，这是一个通过模拟和强化学习来学习机器人手灵巧性的系统，使用 LSTM 来在不同物理环境中泛化，并通过 Rapid PPO 实现来训练能够迁移到现实世界操纵任务的策略。

我们已经训练了一只类人机器人手，使其能够以前所未有的灵巧性操纵物理对象。

查看缓存全文

缓存时间: 2026/04/20 14:46

# 学习灵巧性来源：https://openai.com/index/learning-dexterity/ 通过构建支持迁移的模拟环境，我们将控制机器人在现实世界中的问题简化为在模拟中完成任务，这是一个非常适合强化学习的问题。虽然在模拟手中操纵物体的任务已经有一定难度 (https://openai.com/index/ingredients-for-robotics-research/)，但要在所有随机物理参数组合中学会这样做要困难得多。为了在不同环境中泛化，策略能够在具有不同动力学的环境中采取不同的行动是很有帮助的。由于大多数动力学参数无法从单个观测中推断出来，我们使用了 LSTM (http://colah.github.io/posts/2015-08-Understanding-LSTMs/#lstm-networks)——一种具有记忆功能的神经网络——使网络能够学习环境的动力学。LSTM 在模拟中实现的旋转次数大约是没有记忆的策略的两倍。 Dactyl 使用 Rapid (https://openai.com/index/openai-five/#rapid) 进行学习，这是为了让 OpenAI Five 解决 Dota 2 而开发的大规模 Proximal Policy Optimization 实现。我们使用了与 OpenAI Five 不同的模型架构、环境和超参数，但使用了相同的算法和训练代码。Rapid 使用了 6144 个 CPU 核心和 8 个 GPU 来训练我们的策略，在 50 小时内累积了大约一百年的经验。在开发和测试阶段，我们使用嵌入式动作追踪传感器的物体对控制策略进行了验证，以隔离评估我们的控制和视觉网络的性能。

学习灵巧性

相似文章

学习的机器人

用机器人手解魔方

RLDX-1 技术报告

多目标强化学习：具有挑战性的机器人环境与研究建议

DeVI：基于物理的灵巧人-物交互，通过合成视频模仿实现

提交意见反馈