ppo

标签

Cards List
#ppo

竞争性自我对弈

OpenAI Blog · 2017-10-11 缓存

OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈,能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为,如铲球、躲闪和虚晃等,表明自我对弈将成为未来强大 AI 系统的基础。

0 人收藏 0 人点赞
#ppo

近端策略优化

OpenAI Blog · 2017-07-20 缓存

# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度

0 人收藏 0 人点赞
← 返回首页

提交意见反馈