学习灵巧性

OpenAI Blog 新闻

摘要

OpenAI 宣布推出 Dactyl,这是一个通过模拟和强化学习来学习机器人手灵巧性的系统,使用 LSTM 来在不同物理环境中泛化,并通过 Rapid PPO 实现来训练能够迁移到现实世界操纵任务的策略。

我们已经训练了一只类人机器人手,使其能够以前所未有的灵巧性操纵物理对象。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# 学习灵巧性 来源:https://openai.com/index/learning-dexterity/ 通过构建支持迁移的模拟环境,我们将控制机器人在现实世界中的问题简化为在模拟中完成任务,这是一个非常适合强化学习的问题。虽然在模拟手中操纵物体的任务已经有一定难度 (https://openai.com/index/ingredients-for-robotics-research/),但要在所有随机物理参数组合中学会这样做要困难得多。 为了在不同环境中泛化,策略能够在具有不同动力学的环境中采取不同的行动是很有帮助的。由于大多数动力学参数无法从单个观测中推断出来,我们使用了 LSTM (http://colah.github.io/posts/2015-08-Understanding-LSTMs/#lstm-networks)——一种具有记忆功能的神经网络——使网络能够学习环境的动力学。LSTM 在模拟中实现的旋转次数大约是没有记忆的策略的两倍。 Dactyl 使用 Rapid (https://openai.com/index/openai-five/#rapid) 进行学习,这是为了让 OpenAI Five 解决 Dota 2 而开发的大规模 Proximal Policy Optimization 实现。我们使用了与 OpenAI Five 不同的模型架构、环境和超参数,但使用了相同的算法和训练代码。Rapid 使用了 6144 个 CPU 核心和 8 个 GPU 来训练我们的策略,在 50 小时内累积了大约一百年的经验。 在开发和测试阶段,我们使用嵌入式动作追踪传感器的物体对控制策略进行了验证,以隔离评估我们的控制和视觉网络的性能。

相似文章

学习的机器人

OpenAI Blog

# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述⁠\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟

用机器人手解魔方

OpenAI Blog

OpenAI 开发了一个能够解魔方的机器人手,采用了一种名叫自动域随机化 (ADR) 的新技术,通过逐步提高模拟难度,使学到的行为能有效地从模拟环境迁移到真实世界。

RLDX-1 技术报告

Hugging Face Daily Papers

RLDX-1 是一种用于灵巧操作的多功能机器人策略,采用多流动作 Transformer(Multi-Stream Action Transformer)架构来整合异构模态,在现实世界任务中超越了现有的 VLA 模型。