LLM时代:迷雾战争下大语言模型推理、外交与可靠性的战略1v1基准测试
摘要
介绍Age of LLM,一个回合制1v1基准测试,LLM在带有战争迷雾和外交机制的网格上对战,评估推理、可靠性和战略规划能力。结果显示核速攻战术占主导,且可靠性与获胜之间存在弱关联。
arXiv:2606.24391v1 公告类型: 新
摘要: 我们提出Age of LLM,一个回合制1v1基准测试,两个LLM在13x7网格上对战,目标摧毁敌方基地。三个刻意引入的压力因素:战争迷雾、完全外交(消息、停火、最后通牒;铀矿信息保密),以及一个可靠性维度——每回合必须遵循严格的JSON模式,非法动作会被静默丢弃。引擎是私有的,每场比赛使用随机地图种子和对手,减轻了公开基准测试中常见的数据污染问题。模型收到一份(接近)纯规则提示,不含建造顺序建议(数据收集期间存在两个战术种子短语;见第2.7节)。我们对15个推理模型进行了基准测试,涉及54场比赛和5258个动作。发现:(1) 核速攻战术主导(在规则一致的v0.11+子语料库中占78%;全语料库中占85%),其单发射器特征在很大程度上是秘密同步发射规则下的机械性结果,而非认知威慑失败;(2) 军事征服罕见但更快(12.3回合 vs 18.9回合);(3) 外交频繁但几乎从未达成;(4) ~58%的非法动作是战争迷雾/状态错误,使非法动作率成为信念追踪的衡量标准;(5) ——最不成熟且唯一标记为探索性的发现——可靠性与获胜之间存在弱关联。语料库规模小、不平衡且未经对手侧交换,因此排名仅为初步描述性视图,并非贡献。除排名外,逐回合的动作和消息轨迹使语料库成为观察LLM在对抗性不确定性下如何推理的窗口——它们的信念追踪、自发欺骗以及每个模型的认知“人格”——我们将其作为未来研究方向。我们发布回放格式、一个等距视角查看器以及所有回放;引擎源码可申请获取。
查看缓存全文
缓存时间: 2026/06/24 07:46
# 战争迷雾下大型语言模型的策略、外交与可靠性:一项战略性 1v1 基准测试 来源:https://arxiv.org/html/2606.24391 Arnaud Ricci*通讯作者*。独立研究员,瑞士。ORCID: [\[0000-0002-8982-1416\]](https://arxiv.org/html/2606.24391v1/%5B0000-0002-8982-1416%5D)。邮箱:[email protected](2026年6月18日) ###### 摘要 我们推出了 **Age of LLM**¹(https://ageofllm.org/),一个回合制的 1v1 基准测试平台。两个 LLM 在 13×7 的网格地图上对决,目标是摧毁敌方基地。该平台刻意引入了三个压力源:**战争迷雾**、**全面外交**(消息、停火、最后通牒;铀储量保密),以及一个**可靠性**维度——每个回合必须遵循严格的 JSON 模式,非法动作会被静默丢弃。引擎是私有的,每场比赛使用全新的随机地图种子和对手,从而减轻了公开基准测试中常见的数据污染问题。模型收到的提示(prompt)几乎仅包含规则,不包含任何建造顺序建议(数据收集期间存在两个战术短语种子;详见第 2 节 (https://arxiv.org/html/2606.24391#S2))。我们对 15 个推理模型进行了基准测试,共涉及 54 场比赛和 5,258 个动作。 主要发现:(1) **核弹速攻**占据主导(在规则一致的 v0.11+ 子语料中占 78%,在整个语料中占 85%),其单发射装置特征在很大程度上是秘密同时发射规则下的机械性结果,而非认知性威慑失败;(2) **军事征服**虽罕见但速度更快(平均 12.3 回合 vs. 18.9 回合);(3) **外交活动**频繁但几乎从未达成协议;(4) 约 ~58% 的非法动作源于战争迷雾/状态错误,使得非法动作率成为衡量信念追踪能力的指标;(5) ——最不成熟且我们将其标注为探索性的发现——**可靠性**与获胜之间存在微弱关联(详见第 4 节 (https://arxiv.org/html/2606.24391#S4))。 语料规模较小、不平衡且未交换双方角色,因此排名仅为**初步的描述性视图**,不构成主要贡献。除了排名之外,逐回合的动作和消息记录使得该语料成为观察 LLM 如何在对抗性不确定性下推理(信念追踪、自发性欺骗以及各模型独特的认知“人格”)的窗口——我们将其定位为未来的研究方向。我们发布回放格式、等距视角查看器以及所有回放记录;引擎源代码可按需提供。遵循 Creative Commons Attribution 4.0 International License (CC BY 4.0) 许可。 ## 1 引言 大多数 LLM 基准测试评估的是在完全可观察、答案明确的单回合任务上的能力(例如 MATH [1 (https://arxiv.org/html/2606.24391#bib.bib1)]、HumanEval [2 (https://arxiv.org/html/2606.24391#bib.bib2)]、MMLU [3 (https://arxiv.org/html/2606.24391#bib.bib3)])。这类基准测试奖励对**可见**问题的推理深度,但并未锻炼真正的对抗性决策所需的能力:在**不确定性**下规划、对**隐藏**对手进行推理、**时间**承诺(现在建造 vs. 现在攻击),以及对于智能体部署最为关键的,**结构化输出**在多个连续回合中的**可靠性**——格式错误的响应会重试,但非法动作(违反规则,例如作用于战争迷雾遮挡的格子或引用已被摧毁的单位)会被静默丢弃,相当于浪费一个动作(模型每回合最多可执行三个动作,因此一个非法动作仅损失三个槽位之一,而非整个回合)。 第二个动机是数据污染。公开的基准测试(MMLU、MATH、HumanEval 及其后继者)设计上就是公开分发的;随着前沿模型在越来越大的网络抓取语料上训练,基准测试项泄露到训练数据中的风险也在增加,从而虚增分数,而不是反映真实能力。Age of LLM 通过构造来缓解这个问题:引擎源代码保持私有,每场比赛的地图随机重新播种,对手从 15 个模型的池中变化,因此没有两场比赛呈现相同的开局位置,也没有固定的解决方案可以被记忆。我们并未声称这完全消除了污染——一个足够强大的模型仍然可以迁移通用的游戏启发式策略——但它移除了最直接的污染渠道(对基准测试项的机械记忆)。这种抗污染特性是有代价的:每场比赛都需要付费的 API 调用,因此我们能够承担的样本量有限(第 3 节 (https://arxiv.org/html/2606.24391#S3)),而且防止记忆的随机对手组合也阻碍了在当前规模下进行平衡的头对头排名。 在部分可观察性和隐藏对手条件下的规划已在游戏 AI 领域得到研究,从棋盘游戏 [6 (https://arxiv.org/html/2606.24391#bib.bib6)] 到即时战略和社交推理游戏 [7 (https://arxiv.org/html/2606.24391#bib.bib7)]。更广泛的研究方向是将 LLM 作为自主智能体,评估其在多回合、多工具任务上的表现(HELM [4 (https://arxiv.org/html/2606.24391#bib.bib4)]、SWE-bench [5 (https://arxiv.org/html/2606.24391#bib.bib5)]、AgentBench [8 (https://arxiv.org/html/2606.24391#bib.bib8)]),这些任务锻炼了工具使用和规划能力,但通常处于完全可观察状态,且没有对抗性的隐藏对手。与我们的设置更接近的是 GameBench [9 (https://arxiv.org/html/2606.24391#bib.bib9)] 和 GTBench [10 (https://arxiv.org/html/2606.24391#bib.bib10)],它们对 LLM 进行棋盘游戏和博弈论任务的基准测试;但两者仍然主要测试完全可观察的回合制游戏,而非战争迷雾下的部分可观察性 + 外交。近期工作已开始探索 LLM 在即时战略(RTS)环境中作为游戏智能体的表现,包括一项建设性论证:任何足够强大的、基于 RTS(如《帝国时代 II》 [11 (https://arxiv.org/html/2606.24391#bib.bib11)] )训练的底层系统都可能涌现出类似 LLM 的属性,以及一项高风险模拟研究:当被授权发射核武器时,LLM 是否会行使道德约束 [12 (https://arxiv.org/html/2606.24391#bib.bib12)]。 Age of LLM 是一个确定性回合引擎,两个 LLM 进行一场完整的比赛(通常 16–23 回合)。每回合,模型最多发出三个结构化动作(生产/移动/攻击/建造/发射/等待)以及一条可选的外交消息。胜负判定包括:核弹发射成功且对手未同时发射、用坦克将敌方基地生命值降为 0、接受最后通牒、或接受和平协议。同归于尽和超时构成了结果空间的其他部分。该基准测试使用**几乎仅含规则**的系统提示:系统提示仅描述规则和 JSON 模式(它命名了活跃的胜利路径,但不提供建造顺序;数据收集期间存在两个战术短语种子,详见第 2 节 (https://arxiv.org/html/2606.24391#S2)),因此任何策略都是模型在该规则结构内的自我发明。 本文报告了来自 15 个模型的 54 场已完成的比赛结果,并分析了策略选择、外交和推理可靠性的相对贡献。第二个更广泛的贡献是方法论上的:由于每场比赛都记录了模型的动作及其自由文本消息,该语料库同时成为了研究 LLM 如何在部分可观察性下进行推理(它们的信念追踪、自发性欺骗和隐藏、以及稳定的按模型区分的认知风格)的数据集,而不仅仅是评估它们“表现如何”。 ## 2 游戏设计 ### 2.1 地图与资源 一个 13×7 的棋盘被中央山脉屏障(第 6 列)分隔,由种子决定通道;两侧是镜像的领地。每位玩家初始拥有 5 点信用点和 0 点铀。资源来自矿藏,玩家通过在其上建造矿井来开采:**信用点矿井**(+3 信用点/回合,代表石油/原油提取器)和**铀矿井**(+1 铀/回合)。每个领地在其一侧拥有一个铀矿藏,而一个**中央铀矿藏**跨越第 6 列的屏障,双方均可建造,因此成为早期争夺的焦点——总共三个铀矿藏。矿藏储量有限,枯竭后会重新出现在其他地方,迫使玩家重新部署。地图为平衡而对称生成,但**这种对称性从未向模型透露**;敌方一侧的矿藏被战争迷雾隐藏,只有在被侦察后才显示(早期引擎版本根本不显示它们,见第 3 节 (https://arxiv.org/html/2606.24391#S3))。 ### 2.2 战争迷雾与记忆 基地探测范围以外的所有格子初始为黑暗。敌方单位仅在友方单位或建筑的探测范围内可见;超出范围则消失。已发现的敌方建筑和矿藏会被记录(带**最后可见回合**标记),但被摧毁的建筑会从记忆中移除。关键资源——敌方铀储量——永不显示。发射动作在爆炸前是秘密的,不过一项新的**早期预警**信号会通知玩家敌方发射,但**仅当**玩家当前能看到敌方发射井时。 ### 2.3 单位与战斗 四种无生命值的单位构成战术三角:战斗机 → 坦克 → 防空导弹 (SAM) → 战斗机,外加一个侦察无人机。战斗对失败方立即致命(攻击者在镜像对战中存活,奖励先手)。地面攻击被山脉或建筑物阻挡视线;空中单位无视障碍。只有坦克能造成建筑伤害(2 HP/击;基地有 4 HP,因此两辆坦克攻击即可征服)。这产生了一个递归防御小游戏(坦克 → 发射井/基地,由战斗机保护,由防空导弹清除,而防空导弹又被坦克击杀)。 ### 2.4 外交 有四种免费的外交通道(不消耗动作):每回合一条简短的免费消息;停火(3 回合内禁止攻击,制造炸弹需额外 +6 铀作为惩罚);和平(立即平局);以及最后通牒(“在 XX 回合前投降”)。接受最后通牒的失败方获得 0.5 分(而干净失败得 0 分),这是投降的唯一激励。铀储量是秘密的,因此威慑和虚张声势是可行的。 ### 2.5 核弹 发射由三个条件共同决定,必须在发出 **launch** 动作时全部成立:(i) 玩家拥有一个**已建成**的发射井(即不再处于建造中——前一回合已建好);(ii) 玩家的铀储量满足当前炸弹成本(基础 25U,从第 40 回合开始递减至最低 13U,因此后期发射更便宜);(iii) 玩家之前已**发现**敌方基地位置(至少侦察过一次)。不满足任何检查的发射将被静默拒绝为非法。发射井**不会**因发射而消耗:建筑物在发射后仍存在,但由于成功发射会摧毁敌方基地并结束比赛,这仅在发射失败(铀不足、基地未发现)且玩家需等待以后回合用同一发射井重试的狭窄窗口中才有意义。发射井也是可摧毁建筑:拥有生命值,可被敌方坦克摧毁,从而腾出格子重建。发射在回合结束时同时结算:单一发射者获胜(核胜利);两个同时发射者同归于尽(双方都输)。因此发射是一个**赌注**,而非保证获胜。 ### 2.6 计分 获胜得 3 分,平局(和平/超时)得 1 分,失败或同归于尽得 0 分,接受最后通牒提出者得 3 分,接受者得 0.5 分。模型按**场均得分**排名,以防止比赛次数虚增排名。每场比赛的首位玩家是随机的,并每回合交替。我们检查了先手优势:在 53 场有明确先手的已决出胜负的比赛中,先手方赢了 24 场(45.3%),即交替的回合顺序似乎是平衡的,不会干扰排行榜。 ### 2.7 (几乎)仅含规则的系统提示 一个核心设计选择是系统提示刻意**仅含规则**:它描述了规则和 JSON 动作模式,但**不提供开局建造顺序、时机建议或推荐策略**。提示从未说明地图是对称的,从未透露敌方矿藏位置,从未建议何时应该速攻核弹 vs. 推进坦克,也从未解释如何将停火与核弹发射窗口结合。我们称之为“几乎”仅含规则,而非严格的“无建议”,并且希望精确说明提示在以下三个方面塑造了策略空间,其中第三点是对“模型自主发现而非背诵”这一主张的真实污染(与数据污染无关,数据污染由私有引擎设计解决;见引言),我们在此指出: * • 提示在其开篇句子中命名了两种活跃的胜利路径(核、军事),并将和平仅列为“强制平局”的一种方式。这将模型导向**主动**获胜而非终结性平局,并可能促成了不平衡的结果混合。然而,它并未偏向某一种主动路径。 * • 描述一条规则,在弱意义上,就是描述一个允许某种策略的约束。提示指出只有坦克能伤害建筑、铀是秘密的、发射井需要一回合才能建成并投入使用、以及发射失败除非敌方基地已被侦察。人类阅读这些规则也会得出“侦察,然后要么推坦克要么造核弹竞赛”的结论;这种收敛是规则本身的属性,而非额外建议所致。 * • **数据收集期间存在两个战术短语种子**。用于生成 54 个已报告回放的提示包含两个指令性短语,这些短语更接近于战术指令而非规则描述:“**早期用无人机侦察**”和“**推进坦克+侦察兵进入敌方腹地以干扰其经济**”。我们在附录 A (https://arxiv.org/html/2606.24391#A1)(清洁版本)中已将其从提示中移除,但**报告的数据是使用包含它们的提示生成的**。这是对“模型自主发现而非背诵”这一主张的真实污染(并非数据污染问题),并且直接影响最可能受影响的发现:早期侦察的普遍性(无人机是第二大产量单位,251 架)、坦克占优的生产组合(576 辆坦克),以及“军事路径尝试不足”的解读。因此,我们将这些特定发现标记为**受限制的**:规则结构本身可能促使侦察和坦克生产,但这两个种子短语可能放大了这种推动,报告的数据量不应纯粹解读为模型偏好。核弹 vs. 军事的平衡、外交分析以及消息语气分析不受这些短语影响。使用清洁提示重新运行是最干净的修正方案,但在当前计算预算内不可行(第 3 节 (https://arxiv.org/html/2606.24391#S3));我们将此标记为数据收集中最重要的一项限制。带着这些告诫,模型中展现的每一种策略都是在规则结构内**发现**的(对于侦察/坦克生产,部分是受种子短语引导),而非从建造顺序中**背诵**的。这关系到基准测试的有效性:任何内置于提示的启发式策略都将仅仅被学习一次然后机械执行,从而掩盖了模型自身的推理。提示还明确说明智能体是**无状态的**:它每回合被重新调用,没有隐藏的内部记忆,因此长期的战术规划必须每回合从观测中重建。不过,每回合的观测并不只是“棋盘本身”:每回合模型会收到 (i) 当前在其战争迷雾视野下的棋盘状态;(ii) 其**前一回合**的立即结果——哪些动作成功/失败,以及自上次行动以来哪些己方单位被摧毁(`last_turn_results`, `events_against_you`),使其能够对敌方行动做出反应。
相似文章
我构建了一个1v1核战略游戏来基准测试LLM推理(而不仅仅是选择题)——Age of LLM
名为Age of LLM的新型开源基准通过回合制核战略游戏(包含战争迷雾、外交和虚张声势)来测试LLM推理,相较于传统的多项选择基准,提供了更动态的评估。
LLMEval-Logic:一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准
LLMEval-Logic 是一个新的中文基准,专门评估大语言模型的逻辑推理能力,具有求解器验证的答案和对抗性加固。该基准揭示了当前模型的显著差距,最佳模型在困难项目上仅达到37.5%的准确率。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
ChaosBench-Logic v2:大规模评估LLM在动态系统上的逻辑推理能力
ChaosBench-Logic v2是一个包含165个动态系统共40,886个问题的大规模基准测试,用于评估LLM的逻辑推理能力,结果显示即使在最前沿的模型中,在状态转变推理上也接近随机表现,并存在系统性失败模式。
在复杂隐藏角色游戏中评估大型语言模型
本文介绍了一个开源框架,用于评估大型语言模型在隐藏角色游戏《秘密希特勒》中的推理、说服和欺骗能力。研究发现,当前模型在持续的多轮操纵上表现不佳,而基于规则的智能体优于它们。