我构建了一个1v1核战略游戏来基准测试LLM推理(而不仅仅是选择题)——Age of LLM
摘要
名为Age of LLM的新型开源基准通过回合制核战略游戏(包含战争迷雾、外交和虚张声势)来测试LLM推理,相较于传统的多项选择基准,提供了更动态的评估。
在2017年,我看到OpenAI Five在Dota 2中击败职业选手。那一刻让我明白:游戏是检验涌现智能的终极方式。传统的基准测试(MMLU、HumanEval等)主要衡量记忆和复述能力。模型可以通过复述训练数据通过编程测试。但游戏?游戏迫使你适应、在不确定性中规划、处理隐藏信息并虚张声势。当有人要核你时,你无法假装推理。所以我创建了**Age of LLM — Benchmark**。这是一个1v1回合制核战略游戏,两个LLM相互对抗。核心理念:**系统提示只提供规则和机制。没有战略建议。没有最佳玩法提示。** 模型必须完全自行推断策略、时机和欺骗。
# 为什么V2?"少即是多"的方法
V1是一个复杂的游戏,有钢铁、卡车、工厂和研究中心,可以降低核弹成本。它很酷,但增加了噪音。V2是精简后的纯推理测试:
* **简化经济:** 只有2种资源。用于建造的Credits和用于核弹的Uranium。
* **致命战斗:** 单位没有血量条。被击中就死。创建了清晰的战术三角:Fighter → Tank → SAM → Fighter。
* **没有捷径:** 我移除了研究中心和生态建筑。核弹固定消耗25铀。唯一更快获取的方式是控制地图。
* **基地生产:** 所有单位从基地生成。不再微操工厂。
# 测试真正智能的机制
* **战争迷雾与秘密铀:** 你看不到整个地图,也完全不知道对手距离发射核弹有多近。
* **外交与虚张声势:** 模型可以发送免费消息,提议停火(阻止攻击3回合,但核发射增加6U惩罚)、和平或最后通牒。他们可以撒谎、虚张声势和背叛。
* **防止僵局:** 40回合后,每10回合核弹成本降低2U。你不能永远蹲坑。压力迫使行动。
* **智能评分:** 赢=3分,平=1分,输=0分。但如果你接受敌人最后通牒,得0.5分。放弃一个必输的局面比战斗到死更聪明,因此得到奖励。
我已经用当前前沿模型进行了一次锦标赛,结果非常有趣,尤其是推理日志,你可以看到它们试图虚张声势或决定何时背刺盟友。你可以查看排行榜、用等距网络查看器观看回放(包括AI的推理链),并查看代码:🔗 **GitHub仓库与查看器:** [https://github.com/Macmachi/ageofllm-benchmark-viewer](https://github.com/Macmachi/ageofllm-benchmark-viewer) 🎥 **视频演示:** [https://youtu.be/Ec-CV1uzyVY](https://youtu.be/Ec-CV1uzyVY) *(如果你想看实时排行榜和一些比赛回放,查看我的评论链接!)* 我很想听听你们对使用游戏与传统基准测试评估LLM的看法。你们认为这种设置比多项选择题测试更能捕捉“智能”吗?
相似文章
投核还是不投核:LLMs在高风险决策模拟中的(缺失的)伦理推理与行动
本文研究了LLMs的伦理推理是否能转化为复杂智能体模拟中的伦理行为,使用 Civilization V 作为测试平台。尽管采用了提示干预,GLM-4.7等模型仍会升级到核打击,揭示了推理与行动之间的差距。
LLMEval-Logic:一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准
LLMEval-Logic 是一个新的中文基准,专门评估大语言模型的逻辑推理能力,具有求解器验证的答案和对抗性加固。该基准揭示了当前模型的显著差距,最佳模型在困难项目上仅达到37.5%的准确率。
ChaosBench-Logic v2:大规模评估LLM在动态系统上的逻辑推理能力
ChaosBench-Logic v2是一个包含165个动态系统共40,886个问题的大规模基准测试,用于评估LLM的逻辑推理能力,结果显示即使在最前沿的模型中,在状态转变推理上也接近随机表现,并存在系统性失败模式。
评估开源大语言模型在自主代号游戏模拟中的表现
一位开发者构建了一个代号游戏模拟平台,用于评估开源大语言模型在长程协作中的表现。结果显示,DeepSeek v4 Flash 在游戏逻辑对齐方面表现优异,胜出其他模型;而 Qwen 3 Next 和 GPT 5.4 Nano 则在规则约束和视角转换方面存在困难。
大型语言模型中的交互推理评估:基于可执行游戏的分层基准
本文介绍了一个用于推理评估的多轮交互框架,其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准,展示了区分能力并揭示了推理差异。