policy-learning

标签

Cards List
#policy-learning

LeRobot v0.5.0:全面扩展

Hugging Face Blog · 2026-03-09 缓存

LeRobot v0.5.0 是一个重大版本,支持 Unitree G1 人形机器人、新的策略架构(Pi0-FAST VLAs、实时分块)、用于提升 3 倍训练速度的流式视频编码,以及用于从 Hugging Face Hub 加载仿真环境的 EnvHub。

0 人收藏 0 人点赞
#policy-learning

多智能体系统中的策略表示学习

OpenAI Blog · 2018-06-17 缓存

OpenAI 研究人员提出了一个通用框架,用于在多智能体系统中使用最少的交互数据学习智能体策略的表示,将该问题视为表示学习,并应用于竞争控制和合作通信环境。

0 人收藏 0 人点赞
#policy-learning

学习层级结构

OpenAI Blog · 2017-10-26 缓存

OpenAI 研究提出分层强化学习方法,其中智能体将复杂任务分解为高级操作序列而非低级操作,通过将搜索复杂度从数千步降低到数十步,显著提高长视野任务的效率。

0 人收藏 0 人点赞
#policy-learning

通过动力学随机化实现机器人控制的仿真到现实迁移

OpenAI Blog · 2017-10-18 缓存

OpenAI 研究人员演示了一种通过使用随机化的模拟器动力学来训练策略,从而弥合现实差距的方法。这使得完全在仿真环境中训练的机器人能够成功迁移到现实世界任务,如物体操作,无需进行物理训练。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈