GENSTRAT：迈向大型语言模型战略推理科学

arXiv cs.AI 2026/05/25 04:00 论文

摘要

本文介绍了GENSTRAT，一个利用程序生成的战略环境来评估LLMs在多维度上的战略推理能力的基准，解决了固定游戏套件的局限性。

arXiv:2605.23238v1 公告类型：新摘要：大型语言模型（LLMs）越来越多地被部署为市场、拍卖和竞价场景中的经济主体。预测它们在特定部署中的行为是困难的。现有的战略推理基准在固定的经典博弈上评估模型。这些基准可能会随着模型能力的提升而饱和，并且它们不允许评估者从基准性能自信地泛化到实际部署中涉及的各种混乱的战略环境。我们引入了GENSTRAT，它使用程序生成的战略环境来解决这些挑战。具体来说，我们生成了一个双人零和、不完全信息卡牌游戏的分布。生成器可以根据需要抽取新游戏，从而实现常青评估并抵抗数据污染。我们将游戏分布与一种能力剖面方法相结合，该方法将模型能力分解为六个维度（状态空间、时间深度、信息敏感性、对手建模、风险和脆弱性）。我们还引入了一种分布内平滑度的锯齿度度量，用于检测模型在战略相似的游戏之间优势出现不可预测跳跃的情况。我们从2000个游戏池中抽样了50个基准游戏，并在一个有超过36,000场比赛的头对头锦标赛中评估了九个前沿和开源权重的LLMs。较新的前沿层级模型平均得分更高。除了平均值之外，整体实力几乎相同的模型表现出性质不同的能力剖面，并且排行榜前三名中的两个模型（gpt-5 和 claude）在局部波动性上明显高于第三个模型（gemini-3.1-pro），尽管整体实力相近。能力剖面和锯齿度度量共同提供了仅靠整体排名无法给出的部署相关诊断。

查看原文

查看缓存全文

缓存时间: 2026/05/25 08:57

# GENSTRAT：迈向大型语言模型策略推理的科学 来源：https://arxiv.org/html/2605.23238 Vartan Shadarevian 普林斯顿大学 & Kia Ghods 普林斯顿大学 & Alex Kenich Google & Anany Kotawala 普林斯顿大学 ###### 摘要 大型语言模型 \(LLMs\) 越来越多地被部署为市场、拍卖和竞价场景中的经济主体。预测它们在特定部署中的行为十分困难。现有的策略推理基准测试在固定的经典博弈上评估模型。这些基准测试可能会随着模型前沿能力的提升而饱和，并且它们不允许评估者从基准测试性能自信地推广到实际部署中多样且混乱的战略环境。我们引入GENSTRAT，它使用程序生成的战略环境来解决这些挑战。具体来说，我们生成一个两人零和、不完美信息的纸牌博弈分布。生成器可以按需生成新的博弈，从而实现常青评估并抵抗数据污染。我们将博弈分布与一个能力画像方法论配对，该方法将模型能力分解为六个维度（状态空间、时间深度、信息敏感性、对手建模、风险和脆弱性）。我们还引入了一个分布内平滑度的锯齿度度量，用于检测模型在战略相似的博弈之间优势是否出现不可预测的跳跃。我们从2000个博弈的生成池中采样了50个基准博弈，并在一个包含超过36,000场比赛的头对头锦标赛中评估了九个前沿和开源权重LLM。较新的前沿模型平均得分更高。除了平均值之外，整体实力几乎相同的模型显示出定性的不同能力画像，并且排行榜上前三名中的两个模型（gpt-5 和 claude）比第三个（gemini-3.1-pro）在局部上明显更波动，尽管整体实力接近。总之，能力画像和锯齿度度量提供了仅靠总体排名无法提供的部署相关诊断。 ## 1 引言 前沿LLM越来越多地被置于受控实验中的经济主体角色，包括运行小型商业操作[3 (https://arxiv.org/html/2605.23238#bib.bib38)]和参与市场模拟[4 (https://arxiv.org/html/2605.23238#bib.bib39)]，并且在基于LLM的定价研究中表现出算法合谋行为[14 (https://arxiv.org/html/2605.23238#bib.bib37)]。随着LLM在多主体战略环境中的使用越来越多，给定模型在实际部署后表现如何变得难以预测。AI模型在经典博弈上的表现并不能干净地转移到部署者将使用该模型的具体战略环境中。现有的战略推理基准测试在固定的经典博弈和套件上评估LLM。基于扑克的LLM评估和智能体，包括Leduc Hold'em和Texas Hold'em设置[15 (https://arxiv.org/html/2605.23238#bib.bib10),16 (https://arxiv.org/html/2605.23238#bib.bib11)]、AvalonBench[18 (https://arxiv.org/html/2605.23238#bib.bib12)]、Diplomacy[1 (https://arxiv.org/html/2605.23238#bib.bib24)]以及更广泛的博弈论和游戏套件如GTBench和GameBench[13 (https://arxiv.org/html/2605.23238#bib.bib13),12 (https://arxiv.org/html/2605.23238#bib.bib14)]都属于这一类。两个限制制约了它们作为部署相关战略能力评估的能力。首先，固定的博弈套件可能会随着前沿能力的提升而饱和，并且基准测试的内容越接近经典博弈，就越难排除来自训练数据的语料污染。其次，将模型策略能力简化为少量博弈上的表现限制了部署者从基准测试性能推广到新颖战略环境的能力，在这些环境中，变化、真实世界的混乱以及信息结构的转变会深刻影响最优玩法。我们通过GENSTRAT解决了这两个限制，这是一个程序生成的两人零和不完美信息纸牌博弈分布，我们称之为广义下注博弈（GBGs）。程序生成已被证明对单智能体强化学习泛化有用（ProcGen[10 (https://arxiv.org/html/2605.23238#bib.bib6)], MiniGrid[9 (https://arxiv.org/html/2605.23238#bib.bib7)]），但其在评估LLM多主体策略推理方面的潜力尚未得到充分探索。多主体设置表现出一种*放大效应*，使得通过程序生成进行评估特别有信息量：底层环境复杂性的微小增加可能导致智能体面临战略问题复杂性的显著增加。我们基准测试中的每场博弈都使用筹码进行，筹码是在比赛过程中累积并决定最终收益的数值赌注。由于生成器可以随时从同一分布中自由抽取，GENSTRAT基准测试不能通过训练50个博弈的基准测试集而饱和。即使一个评估者直接在那50个博弈上训练并饱和了那个固定子集，从同一程序分布中抽取的新鲜保留样本仍然未被污染。我们将该分布与一个六维能力画像分解（状态空间、时间深度、信息敏感性、对手建模、风险、脆弱性）配对，以便模型的性能是跨战略维度报告的，而不是通过单一排名。我们还引入了一个锯齿度度量，用于量化模型在相似博弈之间胜率残差波动的剧烈程度。然后我们运行了一个包含超过36,000场比赛的9模型锦标赛（合并的锦标赛数据包含36,937个对局行），包括开源权重和闭源模型。更大、更新且具有推理能力的模型平均得分更高，排行榜以每博弈约三个筹码的差距对模型进行了清晰排序。整体实力几乎相同的模型显示出定性的能力画像差异：gemini-3.1-pro-preview 在最多的维度上获得了优势，而 claude-sonnet-4-6-max 的优势主要来自脆弱性维度。按平均胜率差额衡量的最强测试模型（gpt-5-4-high）也是局部锯齿度最大的模型之一（第8节），而第二强模型（gemini-3.1-pro-preview）则是顶级模型中最平滑的。一个思考模式消融实验，其中同一个模型在八个家族-对手组合中的七个上以低和高推理努力与锚定对手对战，发现所有四个模型家族中额外推理带来的筹码差额回报具有正的点估计且幅度相当，其中两个家族的非零区间排除零，另外两个则因样本量不足而非预期为零。对部署的启示是，模型策略能力最好被理解为它在程序化博弈空间不同区域上的完整性能画像，以及其局部锯齿度水平。 ## 2 相关工作 战略博弈在AI研究中长期扮演重要角色，包括著名的案例如AlphaZero[24 (https://arxiv.org/html/2605.23238#bib.bib20)]在国际象棋/围棋上，Libratus[7 (https://arxiv.org/html/2605.23238#bib.bib21)]和Pluribus[8 (https://arxiv.org/html/2605.23238#bib.bib22)]在扑克上，DeepNash[22 (https://arxiv.org/html/2605.23238#bib.bib23)]在Stratego上，以及CICERO[1 (https://arxiv.org/html/2605.23238#bib.bib24)]在Diplomacy上。这些评估通常专注于为玩单一著名游戏而设计的孤立专业系统。它们不解决跨新颖战略环境的泛化问题。最近，人们努力将通用LLM与战略游戏进行基准测试。例如，GTBench[13 (https://arxiv.org/html/2605.23238#bib.bib13)]、GameBench[12 (https://arxiv.org/html/2605.23238#bib.bib14)]和AvalonBench[18 (https://arxiv.org/html/2605.23238#bib.bib12)]都在固定的已知游戏上运行。Akata等人[2 (https://arxiv.org/html/2605.23238#bib.bib25)]在重复博弈中研究LLM。Lorè和Heydari[21 (https://arxiv.org/html/2605.23238#bib.bib26)]将游戏结构与上下文框架分离，Collins等人[11 (https://arxiv.org/html/2605.23238#bib.bib15)]探索LLM评估新颖游戏的能力，Lin等人[20 (https://arxiv.org/html/2605.23238#bib.bib30)]在具有智能体工具使用的专业扑克风格任务上研究LLM。心理理论（ToM）文献密切相关。Strachan等人[27 (https://arxiv.org/html/2605.23238#bib.bib27)]报告了某些前沿模型在经典错误信念任务上达到人类水平的表现，而Ullman[29 (https://arxiv.org/html/2605.23238#bib.bib28)]表明小的任务改变可以急剧降低明显的ToM表现。[19 (https://arxiv.org/html/2605.23238#bib.bib29)]的扑克-ToM编码方案是一项紧密相关的努力，用于从模型痕迹中解读策略推理。与我们工作最接近的是gg-bench[33 (https://arxiv.org/html/2605.23238#bib.bib16)]，它通过LLM创作生成新颖游戏，并通过与自我对弈训练的强化学习（RL）智能体的胜率来评估LLM。GENSTRAT在四个方面有所不同：(i) 参数化规则生成器（而非LLM创作），因此游戏分布及其复杂性由我们直接控制，而非LLM的设计先验；(ii) 通过同一个生成器，游戏复杂性可以任意缩放，使基准测试能跟踪模型前沿而无需重建；(iii) 我们沿着这些复杂性维度分解性能，并测量模型性能的锯齿度；(iv) 我们运行大规模锦标赛来描绘模型性能在这些维度上的轮廓。更广泛地说，衡量基础模型性能如何泛化到训练和评估分布之外，激发了最近关于人们期望LLM如何泛化的工作[32 (https://arxiv.org/html/2605.23238#bib.bib46)]，关于生成模型隐式世界模型的工作[31 (https://arxiv.org/html/2605.23238#bib.bib47)]，以及基础模型归纳偏置探测的工作[30 (https://arxiv.org/html/2605.23238#bib.bib48)]。这些工作侧重于单智能体世界建模；我们的论文将同样的泛化关注点带到多主体战略环境中，即经济主体部署模型所处的情境。其他工作也在其他背景下研究了程序生成，尽管是在非战略环境中。ProcGen[10 (https://arxiv.org/html/2605.23238#bib.bib6)]、MiniGrid[9 (https://arxiv.org/html/2605.23238#bib.bib7)]以及更广泛的程序内容生成文献[23 (https://arxiv.org/html/2605.23238#bib.bib8)]测试了单智能体RL的泛化。 ## 3 广义下注博弈与GENSTRAT 我们将广义下注博弈（GBG）定义为具有不完美信息的两人零和扩展形式博弈，包含一副牌、私有手牌、其他牌堆、结构化的阶段以及控制博弈分支或事件发生的条件。GBG通过添加诸如非下注动作和轮次、替代博弈树和信息结构以及访问博弈分支的不同条件等功能，概括了Kuhn扑克[17 (https://arxiv.org/html/2605.23238#bib.bib1)]和Leduc扑克[26 (https://arxiv.org/html/2605.23238#bib.bib2)]等博弈。结构化阶段决定博弈如何进行。它们包括下注阶段、同时行动阶段、拍卖阶段以及给玩家提供信号或其他信息的观察阶段。例如，在具有不同可观察水平的变体中，引擎控制每个玩家可以看到哪些观察。博弈构建引擎随机化GBG的结构组成，而不仅仅是其表面参数。阶段图本身被采样，因此不同的抽取产生结构上不同的博弈形式。在该随机化结构内，诸如牌面等级、花色、手牌大小、下注顺序、是否包含其他类型的轮次（如拍卖或同时行动轮次）、观察触发条件、位置标准、摊牌指标、边注结构和条件分支谓词等表面特征也被随机抽取。由于随机化配置可能以非平凡的方式交互，引擎解决由此产生的条件结构，使得最终博弈保持连贯和可玩。关于模块化构建的更多细节见附录A (https://arxiv.org/html/2605.23238#A1)。通过放宽用于50个博弈基准测试的生成器上限，可以缩放生成博弈的复杂性。第3.1节 (https://arxiv.org/html/2605.23238#S3.SS1)中引入的六个维度是蒙特卡洛测量的诊断指标，而非直接的生成器控制，但它们在选择时用于定位轴空间特定区域的覆盖。可以随时从同一程序分布中抽取新的评估博弈，因此在第4节 (https://arxiv.org/html/2605.23238#S4)中对50个博弈基准测试进行训练并不会耗尽该程序分布。生成器还可以产生比用于50个博弈基准测试的上限复杂度更高的博弈，因此基准测试可以随模型前沿而缩放。我们确保每个博弈是其整数种子的确定性函数，以保证可复现性。生成博弈时，我们应用多项质量检查。仅当抽取通过涉及随机行动智能体的蒙特卡洛模拟的三个条件时，才被接受。首先，每个玩家平均移动次数不得超过十次。其次，每个阶段必须在至少5%的蒙特卡洛情节中触发，最多允许30%的阶段低于该阈值，否则博弈被拒绝。第三，在阶段图包含条件分支的博弈中，蒙特卡洛运行期间这些分支中不得超过34%保持死分支。蒙特卡洛预算为每个候选博弈2000个情节，智能体在每个决策节点上从合法动作中均匀随机选择。为收集2000个博弈的接受池，程序构建器采样了12,351个候选种子，其中大约六分之一通过了接受检查，形成候选池，随后根据第4节中的程序从中选出50个博弈的基准测试。 ### 3.1 六个特征博弈复杂性的维度 为了更好地理解模型在生成博弈间的性能变化，并确保对不同复杂性概念的覆盖，我们计算了六个复杂性“维度”，沿不同维度测量博弈，通过蒙特卡洛模拟构建。每个维度捕捉玩家可能面临的特定战略复杂性类型。它们共同构成了我们用于采样博弈和测量能力画像的空间（完整公式见附录C (https://arxiv.org/html/2605.23238#A3)）。 - • **状态空间**。状态空间维度衡量博弈的一般组合复杂性。我们将其近似为随机智能体玩法的模拟所观察到的不同可观察信息状态的log₁₀。例如，牌少、阶段少的博弈得分低，而牌多、阶段多的博弈得分高。 - • **时间深度**。时间深度维度衡量早期决策对后期收益的影响强度。当早期行动无关紧要时，玩家可以短视地决策。当它们约束或设置后期阶段时，则必须考虑长期影响。

GENSTRAT：迈向大型语言模型战略推理科学

相似文章

大型语言模型中的交互推理评估：基于可执行游戏的分层基准

Stratagem：通过轨迹调制博弈自博弈学习可迁移推理

在复杂隐藏角色游戏中评估大型语言模型

大型语言模型中的数学推理：基准、架构、评估与开放挑战

超越当前观察：在可控非马尔可夫游戏中评估多模态大语言模型

提交意见反馈