我用自对弈强化学习制作了一个超人类水平的 Generals.io 智能体 [P]

Reddit r/MachineLearning 2026/06/24 16:18 模型

self-play reinforcement-learning jax vision-transformer game-ai open-source generals-io

摘要

使用基于 JAX 的流水线和 Vision Transformer，通过自对弈强化学习训练了一个超人类水平的 Generals.io 智能体。在人类 1v1 排行榜上排名第一；所有代码和一个快速的 JAX 模拟器均已开源。

大家好，我训练了一个用于 Generals.io 的自对弈强化学习智能体，它达到了超人类水平，并在人类 1v1 排行榜上排名第一。这个项目最初是我的硕士论文，目标是击败一个基于先前算法的智能体。我们通过行为克隆、RL 微调和奖励塑形取得了成功，但这个智能体仍然经常被顶级玩家击败。所以我进行了第二轮改进，解决了最大的瓶颈：用 JAX 重新实现了整个流水线（从 NumPy/Torch），并使用 Vision Transformer 替代 CNN。这两个改进都源于同一个想法：投入扩展而非人工先验和临时补丁。这篇博客是写给任何构建类似系统的人的指南——涵盖了死胡同、决策以及我在过程中积累的直觉和技巧。所有内容都已开源，包括快速的 JAX 模拟器——如果你想要一个不完美信息 RTS 环境来玩，它本身也很有用。链接 - 指南：https://kam.mff.cuni.cz/~straka/blog/generals.html - 模拟器 (JAX)：https://github.com/strakam/generals-bots - 智能体：https://github.com/strakam/AverageJoe 希望你觉得这篇博客有趣！欢迎反馈和提问 🤗。

查看原文

我用自对弈强化学习制作了一个超人类水平的 Generals.io 智能体 [P]

相似文章

@reach_vb: https://x.com/reach_vb/status/2057880274348695995

自我对弈帮助AI在围棋中达到超人类水平，那么为何对LLM未能如此？研究人员找到了解决方案。

@dair_ai: // 自对弈加上一点人类数据 // 结合人类演示和自对弈强化学习的超酷论文。30分钟…

@browser_use：代理程序在线玩游戏？我们让v4代理尝试玩powerline[.]io > 分析游戏状态和目标 > 创…

@neural_avb：这就是经过5-6小时自对弈强化学习训练所能达到的效果——智能体通过激光雷达查看弹丸…

提交意见反馈