ppo

#ppo

竞争性自我对弈

OpenAI Blog ↗ · 2017-10-11 缓存

OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈，能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为，如铲球、躲闪和虚晃等，表明自我对弈将成为未来强大 AI 系统的基础。

0 人收藏 0 人点赞

#ppo

# 近端策略优化来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化（PPO），其性能与最先进的方法相当或更优，同时实现和调优都要简单得多。由于易用性和良好的性能，PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度

0 人收藏 0 人点赞

ppo

竞争性自我对弈

近端策略优化

提交意见反馈