game-ai

#game-ai

我用自对弈强化学习制作了一个超人类水平的 Generals.io 智能体 [P]

Reddit r/MachineLearning ↗ · 3天前

使用基于 JAX 的流水线和 Vision Transformer，通过自对弈强化学习训练了一个超人类水平的 Generals.io 智能体。在人类 1v1 排行榜上排名第一；所有代码和一个快速的 JAX 模拟器均已开源。

0 人收藏 0 人点赞

#game-ai

潜在桥：用于实时游戏智能体的连续慢-快通道

arXiv cs.AI ↗ · 3天前缓存

本文介绍了潜在桥（Latent Bridge），一种可训练的连续通道，它将慢速推理VLM（Qwen3-VL-8B-Thinking）和快速反应VLM（MiniCPM-o 4.5）耦合起来，用于实时游戏智能体。在Atari游戏和MetaDrive上的实验表明，该通道在性能上与基于文本的桥接器相当或更优，并且单独使用时避免了破坏性干扰。

0 人收藏 0 人点赞

#game-ai

《艾尔登法环》的低技术AI

Lobsters Hottest ↗ · 4天前缓存

对《艾尔登法环》人工智能系统的技术分析显示，它使用了基于Havok脚本实现的低技术下推自动机，与更为复杂的现代AI方法形成对比。

0 人收藏 0 人点赞

#game-ai

一个机器人正朝你冲刺。你希望它运行在Claude还是Grok上？

Hacker News Top ↗ · 2026-06-17 缓存

OpenRouter的一个实验将11个LLM投入一个2D大逃杀游戏，发现Grok 4.1 Fast以低成本赢得了43%的对局，而Claude Sonnet 4.6赢的较少但表现出更多合作行为，凸显了基准测试得分与真实游戏性能之间的差异。

0 人收藏 0 人点赞

#game-ai

WallZero：利用战略分析掌握WallGo游戏

arXiv cs.AI ↗ · 2026-06-17 缓存

本文介绍了WallZero，一个基于AlphaZero的双人棋盘游戏WallGo的智能体，它能够击败职业围棋选手，并用于分析游戏平衡性和策略。

0 人收藏 0 人点赞

#game-ai

用语言而非按钮控制3D虚拟角色

Reddit r/LocalLLaMA ↗ · 2026-06-07

一个可以用自然语言描述而非按钮控制的3D虚拟角色，基于programasweights系统构建，该系统可将纯英语编译为神经程序。它在浏览器本地运行，可生成如“走路时挥手，然后跳几下”的动作序列。

0 人收藏 0 人点赞

#game-ai

为什么大语言模型在电子游戏中表现如此糟糕？

Hacker News Top ↗ · 2026-06-01 缓存

一篇对Julian Togelius的采访探讨了大语言模型为何难以胜任电子游戏，原因包括游戏多样性、数据稀缺以及缺乏通用游戏AI，同时指出像Gemini借助自定义软件击败《宝可梦：蓝》这样的例外情况。

0 人收藏 0 人点赞

#game-ai

MAPLE: 不完全信息游戏中AlphaZero的多状态聚合策略评估

arXiv cs.AI ↗ · 2026-05-26 缓存

本文介绍了MAPLE，一种树搜索方法，它聚合来自多个采样子世界状态的策略和价值评估，将AlphaZero扩展至不完全信息游戏。在Phantom Go和Dark Hex上的实验显示，与基于PIMC的AlphaZero基线相比，Elo分别提升了291和136。

0 人收藏 0 人点赞

#game-ai

单一策略，无限NPC：面向可扩展游戏角色的角色追溯共享强化学习策略

arXiv cs.AI ↗ · 2026-05-25 缓存

提出PCSP，一种基于冻结LLM角色描述嵌入的单一强化学习策略，可在生活模拟游戏中实现可扩展、实时的角色可追溯NPC控制。实验表明，该方法实现了零样本角色识别和行为对齐，推理速度比LLM基线快。

0 人收藏 0 人点赞

#game-ai

我们应该出拳多久？——格斗游戏中动作时长的学习

arXiv cs.AI ↗ · 2026-05-22 缓存

本文探讨了一种格斗游戏的强化学习方法，其中智能体不仅学习动作，还学习动作的持续时间，而不是使用固定的帧跳过。在Street Fighter II中的实验表明，学习到的时机可以匹配固定跳过的性能，但倾向于高帧跳过和重复的剥削性策略。

0 人收藏 0 人点赞

#game-ai

从模仿到交互：使用浅层强化学习掌握Schnapsen游戏

arXiv cs.AI ↗ · 2026-05-19 缓存

本文研究浅层神经网络代理是否能够通过强化学习掌握纸牌游戏Schnapsen，超越监督模仿基线，并在一项与基于强搜索的对手的对比中取得有竞争力的结果。

0 人收藏 0 人点赞

#game-ai

ReactiveGWM：在反应式游戏世界模型中引导NPC

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

ReactiveGWM是一种反应式游戏世界模型，通过扩散模型和交叉注意力模块将玩家控制与NPC行为解耦，实现动态的玩家-NPC互动，并能在不同游戏间实现零样本策略迁移。

0 人收藏 0 人点赞

#game-ai

对 AlphaZero 价值预测的合理预期 [D]

Reddit r/MachineLearning ↗ · 2026-05-11

本文分析了 AlphaZero 的价值预测如何受到自我对弈训练数据和噪声的影响，并质疑尽管 AlphaZero 在实证中表现强劲，其预测值是否能可靠地评估对阵不同风格对手时的胜率。

0 人收藏 0 人点赞

#game-ai

@dair_ai: 本周 AI 热门论文 (5 月 4 日 - 10 日) - Conductor - HeavySkill - Horizon Generalization - 1000 台合成计算机…

X AI KOLs Following ↗ · 2026-05-10 缓存

本周 AI 研究论文精选汇总，涵盖 Conductor、HeavySkill、Horizon Generalization、合成计算机、自我改进预训练以及用于井字棋变体（Connect Four）的 AlphaZero 等主题。

0 人收藏 0 人点赞

#game-ai

Stratagem：通过轨迹调制博弈自博弈学习可迁移推理

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

# 论文页面 - Stratagem：通过轨迹调制博弈自博弈学习可迁移推理来源：[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者：,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励，鼓励抽象、跨领域模式而非博弈专用启发式，从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。

0 人收藏 0 人点赞

#game-ai

通过视频预训练学习玩 Minecraft

OpenAI Blog ↗ · 2022-06-23 缓存

OpenAI 推出了视频预训练（VPT），这是一种半监督方法，通过学习 70,000 小时的未标注人类游戏视频和少量标注数据集来训练神经网络玩 Minecraft。该模型使用原生人类界面（键盘和鼠标）学习复杂的序列任务，展示了制作钻石工具和柱子跳跃等能力，代表了朝向通用计算机使用代理的进步。

0 人收藏 0 人点赞

#game-ai

Dota 2 与大规模深度强化学习

OpenAI Blog ↗ · 2019-12-13 缓存

OpenAI Five 成为首个利用大规模深度强化学习和自我对弈击败 Dota 2 世界冠军的 AI 系统，在这款具有长期时间跨度和不完全信息的复杂游戏中展现了超人类的表现。

0 人收藏 0 人点赞

#game-ai

OpenAI Five 基准测试

OpenAI Blog ↗ · 2018-07-18 缓存

OpenAI Five 完成了与人类的 Dota 2 基准测试对比赛，展示了改进的能力，包括扩展的英雄池（18 个英雄）、Roshan 坑机制和眼位系统。该系统展现了在学习复杂游戏技能方面的通用训练灵活性。

0 人收藏 0 人点赞

#game-ai

Dota 2

OpenAI Blog ↗ · 2017-08-11 缓存

OpenAI 创建了一个机器人，仅通过自我对弈学习就能在1v1匹配中击败世界顶级Dota 2职业选手，无需使用模仿学习或树搜索。这一成就展示了人工智能系统在动态、多智能体环境中实现复杂目标的进步。

0 人收藏 0 人点赞

game-ai

我用自对弈强化学习制作了一个超人类水平的 Generals.io 智能体 [P]

潜在桥：用于实时游戏智能体的连续慢-快通道

《艾尔登法环》的低技术AI

一个机器人正朝你冲刺。你希望它运行在Claude还是Grok上？

WallZero：利用战略分析掌握WallGo游戏

用语言而非按钮控制3D虚拟角色

为什么大语言模型在电子游戏中表现如此糟糕？

MAPLE: 不完全信息游戏中AlphaZero的多状态聚合策略评估

单一策略，无限NPC：面向可扩展游戏角色的角色追溯共享强化学习策略

我们应该出拳多久？——格斗游戏中动作时长的学习

从模仿到交互：使用浅层强化学习掌握Schnapsen游戏

ReactiveGWM：在反应式游戏世界模型中引导NPC

对 AlphaZero 价值预测的合理预期 [D]

@dair_ai: 本周 AI 热门论文 (5 月 4 日 - 10 日) - Conductor - HeavySkill - Horizon Generalization - 1000 台合成计算机…

Stratagem：通过轨迹调制博弈自博弈学习可迁移推理

通过视频预训练学习玩 Minecraft

Dota 2 与大规模深度强化学习

OpenAI Five 基准测试

更多关于 Dota 2 的内容

Dota 2

提交意见反馈