我用自对弈强化学习制作了一个超人类水平的 Generals.io 智能体 [P]

Reddit r/MachineLearning 模型

摘要

使用基于 JAX 的流水线和 Vision Transformer,通过自对弈强化学习训练了一个超人类水平的 Generals.io 智能体。在人类 1v1 排行榜上排名第一;所有代码和一个快速的 JAX 模拟器均已开源。

大家好,我训练了一个用于 Generals.io 的自对弈强化学习智能体,它达到了超人类水平,并在人类 1v1 排行榜上排名第一。这个项目最初是我的硕士论文,目标是击败一个基于先前算法的智能体。我们通过行为克隆、RL 微调和奖励塑形取得了成功,但这个智能体仍然经常被顶级玩家击败。所以我进行了第二轮改进,解决了最大的瓶颈:用 JAX 重新实现了整个流水线(从 NumPy/Torch),并使用 Vision Transformer 替代 CNN。这两个改进都源于同一个想法:投入扩展而非人工先验和临时补丁。这篇博客是写给任何构建类似系统的人的指南——涵盖了死胡同、决策以及我在过程中积累的直觉和技巧。所有内容都已开源,包括快速的 JAX 模拟器——如果你想要一个不完美信息 RTS 环境来玩,它本身也很有用。链接 - 指南:https://kam.mff.cuni.cz/~straka/blog/generals.html - 模拟器 (JAX):https://github.com/strakam/generals-bots - 智能体:https://github.com/strakam/AverageJoe 希望你觉得这篇博客有趣!欢迎反馈和提问 🤗。
查看原文

相似文章

@reach_vb: https://x.com/reach_vb/status/2057880274348695995

X AI KOLs Following

一名用户演示了使用OpenAI的Codex自动生成一个Colab笔记本,该笔记本在JAX/Flax/Optax中训练一个约1000万参数的transformer进行加法运算,在T4 GPU上经过4000步后达到了高准确率。