我构建了一个1v1核战略游戏来基准测试LLM推理（而不仅仅是选择题）——Age of LLM

Reddit r/ArtificialInteligence 2026/06/08 16:27 工具

llm-benchmark strategy-game reasoning open-source ai-evaluation nuclear-game benchmark

摘要

名为Age of LLM的新型开源基准通过回合制核战略游戏（包含战争迷雾、外交和虚张声势）来测试LLM推理，相较于传统的多项选择基准，提供了更动态的评估。

在2017年，我看到OpenAI Five在Dota 2中击败职业选手。那一刻让我明白：游戏是检验涌现智能的终极方式。传统的基准测试（MMLU、HumanEval等）主要衡量记忆和复述能力。模型可以通过复述训练数据通过编程测试。但游戏？游戏迫使你适应、在不确定性中规划、处理隐藏信息并虚张声势。当有人要核你时，你无法假装推理。所以我创建了**Age of LLM — Benchmark**。这是一个1v1回合制核战略游戏，两个LLM相互对抗。核心理念：**系统提示只提供规则和机制。没有战略建议。没有最佳玩法提示。** 模型必须完全自行推断策略、时机和欺骗。 # 为什么V2？"少即是多"的方法 V1是一个复杂的游戏，有钢铁、卡车、工厂和研究中心，可以降低核弹成本。它很酷，但增加了噪音。V2是精简后的纯推理测试： * **简化经济：** 只有2种资源。用于建造的Credits和用于核弹的Uranium。 * **致命战斗：** 单位没有血量条。被击中就死。创建了清晰的战术三角：Fighter → Tank → SAM → Fighter。 * **没有捷径：** 我移除了研究中心和生态建筑。核弹固定消耗25铀。唯一更快获取的方式是控制地图。 * **基地生产：** 所有单位从基地生成。不再微操工厂。 # 测试真正智能的机制 * **战争迷雾与秘密铀：** 你看不到整个地图，也完全不知道对手距离发射核弹有多近。 * **外交与虚张声势：** 模型可以发送免费消息，提议停火（阻止攻击3回合，但核发射增加6U惩罚）、和平或最后通牒。他们可以撒谎、虚张声势和背叛。 * **防止僵局：** 40回合后，每10回合核弹成本降低2U。你不能永远蹲坑。压力迫使行动。 * **智能评分：** 赢=3分，平=1分，输=0分。但如果你接受敌人最后通牒，得0.5分。放弃一个必输的局面比战斗到死更聪明，因此得到奖励。我已经用当前前沿模型进行了一次锦标赛，结果非常有趣，尤其是推理日志，你可以看到它们试图虚张声势或决定何时背刺盟友。你可以查看排行榜、用等距网络查看器观看回放（包括AI的推理链），并查看代码：🔗 **GitHub仓库与查看器：** [https://github.com/Macmachi/ageofllm-benchmark-viewer](https://github.com/Macmachi/ageofllm-benchmark-viewer) 🎥 **视频演示：** [https://youtu.be/Ec-CV1uzyVY](https://youtu.be/Ec-CV1uzyVY) *(如果你想看实时排行榜和一些比赛回放，查看我的评论链接！)* 我很想听听你们对使用游戏与传统基准测试评估LLM的看法。你们认为这种设置比多项选择题测试更能捕捉“智能”吗？

查看原文

我构建了一个1v1核战略游戏来基准测试LLM推理（而不仅仅是选择题）——Age of LLM

相似文章

投核还是不投核：LLMs在高风险决策模拟中的（缺失的）伦理推理与行动

LLMEval-Logic：一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准

ChaosBench-Logic v2：大规模评估LLM在动态系统上的逻辑推理能力

评估开源大语言模型在自主代号游戏模拟中的表现

大型语言模型中的交互推理评估：基于可执行游戏的分层基准

提交意见反馈