我构建了一个1v1核战略游戏来基准测试LLM推理(而不仅仅是选择题)——Age of LLM

Reddit r/ArtificialInteligence 工具

摘要

名为Age of LLM的新型开源基准通过回合制核战略游戏(包含战争迷雾、外交和虚张声势)来测试LLM推理,相较于传统的多项选择基准,提供了更动态的评估。

在2017年,我看到OpenAI Five在Dota 2中击败职业选手。那一刻让我明白:游戏是检验涌现智能的终极方式。传统的基准测试(MMLU、HumanEval等)主要衡量记忆和复述能力。模型可以通过复述训练数据通过编程测试。但游戏?游戏迫使你适应、在不确定性中规划、处理隐藏信息并虚张声势。当有人要核你时,你无法假装推理。所以我创建了**Age of LLM — Benchmark**。这是一个1v1回合制核战略游戏,两个LLM相互对抗。核心理念:**系统提示只提供规则和机制。没有战略建议。没有最佳玩法提示。** 模型必须完全自行推断策略、时机和欺骗。 # 为什么V2?"少即是多"的方法 V1是一个复杂的游戏,有钢铁、卡车、工厂和研究中心,可以降低核弹成本。它很酷,但增加了噪音。V2是精简后的纯推理测试: * **简化经济:** 只有2种资源。用于建造的Credits和用于核弹的Uranium。 * **致命战斗:** 单位没有血量条。被击中就死。创建了清晰的战术三角:Fighter → Tank → SAM → Fighter。 * **没有捷径:** 我移除了研究中心和生态建筑。核弹固定消耗25铀。唯一更快获取的方式是控制地图。 * **基地生产:** 所有单位从基地生成。不再微操工厂。 # 测试真正智能的机制 * **战争迷雾与秘密铀:** 你看不到整个地图,也完全不知道对手距离发射核弹有多近。 * **外交与虚张声势:** 模型可以发送免费消息,提议停火(阻止攻击3回合,但核发射增加6U惩罚)、和平或最后通牒。他们可以撒谎、虚张声势和背叛。 * **防止僵局:** 40回合后,每10回合核弹成本降低2U。你不能永远蹲坑。压力迫使行动。 * **智能评分:** 赢=3分,平=1分,输=0分。但如果你接受敌人最后通牒,得0.5分。放弃一个必输的局面比战斗到死更聪明,因此得到奖励。 我已经用当前前沿模型进行了一次锦标赛,结果非常有趣,尤其是推理日志,你可以看到它们试图虚张声势或决定何时背刺盟友。你可以查看排行榜、用等距网络查看器观看回放(包括AI的推理链),并查看代码:🔗 **GitHub仓库与查看器:** [https://github.com/Macmachi/ageofllm-benchmark-viewer](https://github.com/Macmachi/ageofllm-benchmark-viewer) 🎥 **视频演示:** [https://youtu.be/Ec-CV1uzyVY](https://youtu.be/Ec-CV1uzyVY) *(如果你想看实时排行榜和一些比赛回放,查看我的评论链接!)* 我很想听听你们对使用游戏与传统基准测试评估LLM的看法。你们认为这种设置比多项选择题测试更能捕捉“智能”吗?
查看原文

相似文章

评估开源大语言模型在自主代号游戏模拟中的表现

Reddit r/AI_Agents

一位开发者构建了一个代号游戏模拟平台,用于评估开源大语言模型在长程协作中的表现。结果显示,DeepSeek v4 Flash 在游戏逻辑对齐方面表现优异,胜出其他模型;而 Qwen 3 Next 和 GPT 5.4 Nano 则在规则约束和视角转换方面存在困难。