标签
使用基于 JAX 的流水线和 Vision Transformer,通过自对弈强化学习训练了一个超人类水平的 Generals.io 智能体。在人类 1v1 排行榜上排名第一;所有代码和一个快速的 JAX 模拟器均已开源。
本文介绍了潜在桥(Latent Bridge),一种可训练的连续通道,它将慢速推理VLM(Qwen3-VL-8B-Thinking)和快速反应VLM(MiniCPM-o 4.5)耦合起来,用于实时游戏智能体。在Atari游戏和MetaDrive上的实验表明,该通道在性能上与基于文本的桥接器相当或更优,并且单独使用时避免了破坏性干扰。
OpenRouter的一个实验将11个LLM投入一个2D大逃杀游戏,发现Grok 4.1 Fast以低成本赢得了43%的对局,而Claude Sonnet 4.6赢的较少但表现出更多合作行为,凸显了基准测试得分与真实游戏性能之间的差异。
本文介绍了WallZero,一个基于AlphaZero的双人棋盘游戏WallGo的智能体,它能够击败职业围棋选手,并用于分析游戏平衡性和策略。
一个可以用自然语言描述而非按钮控制的3D虚拟角色,基于programasweights系统构建,该系统可将纯英语编译为神经程序。它在浏览器本地运行,可生成如“走路时挥手,然后跳几下”的动作序列。
一篇对Julian Togelius的采访探讨了大语言模型为何难以胜任电子游戏,原因包括游戏多样性、数据稀缺以及缺乏通用游戏AI,同时指出像Gemini借助自定义软件击败《宝可梦:蓝》这样的例外情况。
本文介绍了MAPLE,一种树搜索方法,它聚合来自多个采样子世界状态的策略和价值评估,将AlphaZero扩展至不完全信息游戏。在Phantom Go和Dark Hex上的实验显示,与基于PIMC的AlphaZero基线相比,Elo分别提升了291和136。
提出PCSP,一种基于冻结LLM角色描述嵌入的单一强化学习策略,可在生活模拟游戏中实现可扩展、实时的角色可追溯NPC控制。实验表明,该方法实现了零样本角色识别和行为对齐,推理速度比LLM基线快。
本文探讨了一种格斗游戏的强化学习方法,其中智能体不仅学习动作,还学习动作的持续时间,而不是使用固定的帧跳过。在Street Fighter II中的实验表明,学习到的时机可以匹配固定跳过的性能,但倾向于高帧跳过和重复的剥削性策略。
本文研究浅层神经网络代理是否能够通过强化学习掌握纸牌游戏Schnapsen,超越监督模仿基线,并在一项与基于强搜索的对手的对比中取得有竞争力的结果。
ReactiveGWM是一种反应式游戏世界模型,通过扩散模型和交叉注意力模块将玩家控制与NPC行为解耦,实现动态的玩家-NPC互动,并能在不同游戏间实现零样本策略迁移。
本文分析了 AlphaZero 的价值预测如何受到自我对弈训练数据和噪声的影响,并质疑尽管 AlphaZero 在实证中表现强劲,其预测值是否能可靠地评估对阵不同风格对手时的胜率。
本周 AI 研究论文精选汇总,涵盖 Conductor、HeavySkill、Horizon Generalization、合成计算机、自我改进预训练以及用于井字棋变体(Connect Four)的 AlphaZero 等主题。
# 论文页面 - Stratagem:通过轨迹调制博弈自博弈学习可迁移推理 来源:[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者:,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励,鼓励抽象、跨领域模式而非博弈专用启发式,从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。
OpenAI 推出了视频预训练(VPT),这是一种半监督方法,通过学习 70,000 小时的未标注人类游戏视频和少量标注数据集来训练神经网络玩 Minecraft。该模型使用原生人类界面(键盘和鼠标)学习复杂的序列任务,展示了制作钻石工具和柱子跳跃等能力,代表了朝向通用计算机使用代理的进步。
OpenAI Five 成为首个利用大规模深度强化学习和自我对弈击败 Dota 2 世界冠军的 AI 系统,在这款具有长期时间跨度和不完全信息的复杂游戏中展现了超人类的表现。
OpenAI Five 完成了与人类的 Dota 2 基准测试对比赛,展示了改进的能力,包括扩展的英雄池(18 个英雄)、Roshan 坑机制和眼位系统。该系统展现了在学习复杂游戏技能方面的通用训练灵活性。
OpenAI 描述了他们在国际邀请赛期间对 Dota 2 机器人所做的迭代改进,将教练指导与自我对弈相结合,通过快速训练周期和在职业比赛中发现的战略优化来增强智能体性能。
OpenAI 创建了一个机器人,仅通过自我对弈学习就能在1v1匹配中击败世界顶级Dota 2职业选手,无需使用模仿学习或树搜索。这一成就展示了人工智能系统在动态、多智能体环境中实现复杂目标的进步。