我用自对弈强化学习制作了一个超人类水平的 Generals.io 智能体 [P]
摘要
使用基于 JAX 的流水线和 Vision Transformer,通过自对弈强化学习训练了一个超人类水平的 Generals.io 智能体。在人类 1v1 排行榜上排名第一;所有代码和一个快速的 JAX 模拟器均已开源。
大家好,我训练了一个用于 Generals.io 的自对弈强化学习智能体,它达到了超人类水平,并在人类 1v1 排行榜上排名第一。这个项目最初是我的硕士论文,目标是击败一个基于先前算法的智能体。我们通过行为克隆、RL 微调和奖励塑形取得了成功,但这个智能体仍然经常被顶级玩家击败。所以我进行了第二轮改进,解决了最大的瓶颈:用 JAX 重新实现了整个流水线(从 NumPy/Torch),并使用 Vision Transformer 替代 CNN。这两个改进都源于同一个想法:投入扩展而非人工先验和临时补丁。这篇博客是写给任何构建类似系统的人的指南——涵盖了死胡同、决策以及我在过程中积累的直觉和技巧。所有内容都已开源,包括快速的 JAX 模拟器——如果你想要一个不完美信息 RTS 环境来玩,它本身也很有用。链接 - 指南:https://kam.mff.cuni.cz/~straka/blog/generals.html - 模拟器 (JAX):https://github.com/strakam/generals-bots - 智能体:https://github.com/strakam/AverageJoe 希望你觉得这篇博客有趣!欢迎反馈和提问 🤗。
相似文章
@reach_vb: https://x.com/reach_vb/status/2057880274348695995
一名用户演示了使用OpenAI的Codex自动生成一个Colab笔记本,该笔记本在JAX/Flax/Optax中训练一个约1000万参数的transformer进行加法运算,在T4 GPU上经过4000步后达到了高准确率。
自我对弈帮助AI在围棋中达到超人类水平,那么为何对LLM未能如此?研究人员找到了解决方案。
研究人员引入了自导自对弈(Self-Guided Self-Play, SGS),这是一种用于LLM的自我对弈算法,通过使用指引角色(Guide)对合成问题进行评分来防止奖励作弊(reward hacking)。应用于Lean4中的定理证明时,SGS超越了强化学习基线,并使7B模型胜过671B模型。
@dair_ai: // 自对弈加上一点人类数据 // 结合人类演示和自对弈强化学习的超酷论文。30分钟…
一篇研究论文,将少量人类演示作为正则化目标与自对弈强化学习相结合,从而使用极少的人类数据(30分钟对比数千小时)并在单个消费级GPU上训练15小时,实现与人类兼容的驾驶策略。
@browser_use:代理程序在线玩游戏?我们让v4代理尝试玩powerline[.]io > 分析游戏状态和目标 > 创…
browser_use展示了他们的v4 AI代理如何自主玩在线游戏powerline.io:通过分析游戏状态并创建实时子代理来争夺第一名。
@neural_avb:这就是经过5-6小时自对弈强化学习训练所能达到的效果——智能体通过激光雷达查看弹丸…
一个帖子分享了在Unity中使用激光雷达和PPO进行自对弈RL训练的视频,随后是关于从零构建AlphaGo的讲座。