RTSGameBench:一个用于视觉语言模型战略推理的实时策略基准测试

arXiv cs.AI 论文

摘要

RTSGameBench是一个基于实时策略游戏《Beyond All Reason》的基准测试,用于评估视觉语言模型中的战略推理能力。它提供了多样化的对战组合、诊断性小游戏以及一个能够生成新场景的自我演化框架。

arXiv:2606.18950v1 Announce Type: new 摘要:现代视觉语言模型(VLM)在竞争与合作场景的不确定性下,往往难以进行战略推理,即预测并影响其他智能体的行为。实时策略(RTS)游戏可作为诊断这一局限性的自然试验床,因为这类游戏要求与盟友协调、适应对手策略,并在部分可观测条件下进行长期规划。然而,现有的RTS基准测试评估范围有限,缺乏系统性的能力诊断,且其预设计场景覆盖范围固定不变。为应对这些局限,我们提出了RTSGameBench,该基准构建于大型RTS游戏《Beyond All Reason》之上,其战场规模更大,要求比现有试验床更丰富的策略多样性。该基准通过多种对战结构提供多样化评估,通过各针对单一战略能力的小游戏进行诊断性评估,并通过一个自我演化生成框架实现可扩展的覆盖——该框架将自由形式查询转化为新小游戏,并在连续迭代中不断提升。此外,为使VLM能在大规模RTS游戏中运行,我们提供了RTSGameAgent,该智能体通过带有智能体内存的有限状态机管理单位。我们通过实验验证,多个最先进的VLM在对战要求更紧密协调、多智能体协同以及任务规模增大时,表现并不理想。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:41

# RTSGameBench:面向视觉语言模型战略推理的即时战略游戏基准
来源:https://arxiv.org/html/2606.18950

11institutetext:首尔大学
11email:\{00sankim,daechulahn,reokyoungkim,gusqja1228,amyj97,jonghyunchoi\}@snu\.ac\.kr

San Kim
首尔大学, 首尔, 韩国
11email:\{00sankim, daechulahn, reokyoungkim, gusqja1228, amyj97, jonghyunchoi\}@snu\.ac\.kr

Daechul Ahn
首尔大学, 首尔, 韩国
11email:\{00sankim, daechulahn, reokyoungkim, gusqja1228, amyj97, jonghyunchoi\}@snu\.ac\.kr

Reokyoung Kim
首尔大学, 首尔, 韩国
11email:\{00sankim, daechulahn, reokyoungkim, gusqja1228, amyj97, jonghyunchoi\}@snu\.ac\.kr

Hyeonbeom Choi
首尔大学, 首尔, 韩国
11email:\{00sankim, daechulahn, reokyoungkim, gusqja1228, amyj97, jonghyunchoi\}@snu\.ac\.kr

Seungyeon Jwa
首尔大学, 首尔, 韩国
11email:\{00sankim, daechulahn, reokyoungkim, gusqja1228, amyj97, jonghyunchoi\}@snu\.ac\.kr

Jonghyun Choi†
首尔大学, 首尔, 韩国
11email:\{00sankim, daechulahn, reokyoungkim, gusqja1228, amyj97, jonghyunchoi\}@snu\.ac\.kr

###### 摘要
现代视觉语言模型(VLM)在竞争性和合作性设定下,面对不确定性时,往往难以进行战略推理——即预判并影响其他智能体的行为。即时战略(RTS)游戏可作为诊断这一局限性的天然试验场,因为它要求与盟友协同、适应对手策略,并在部分可观测条件下进行长视野规划。然而,现有的RTS基准测试覆盖范围有限,缺乏系统性的能力诊断,且局限于预先设计的场景。为弥补这些不足,我们提出了RTSGameBench,该基准基于Beyond All Reason(一款大规模RTS游戏)构建,其战场规模更大,要求比现有测试床更广泛的策略多样性。本基准通过以下方式提供评估:多样化的对战结构下的完整游戏评估、针对单个战略能力的诊断性迷你游戏,以及一个自演化生成框架——该框架将自由形式的查询转化为新的迷你游戏,并在连续迭代中不断改进。此外,为使VLM能够在大型RTS游戏中运行,我们提供了RTSGameAgent,它通过有限状态机(FSM)和智能体记忆来管理单位。我们通过实证验证,多种最先进的VLM在对战要求更紧密的协调、多智能体协调以及任务规模增大时,表现不佳。代码开源地址:https://github.com/snumprlab/RTSGameBench。
††footnotetext:\*这些作者贡献相同。†JC任职于首尔大学电子与计算机工程系、IPAI和ASRI,为通讯作者。

## 1 引言

视觉语言模型(VLM)在一系列任务中取得了显著成功 [brown2020language, raffel2020exploring, ouyang2022training, touvron2023llama, openai2023gpt4],但在复杂、不断变化、需要与其他智能体共存并做出长视野序列决策的环境中部署它们仍然具有挑战性 [brohan2022rt1, driess2023palme, fan2022minedojo]。这一挑战的核心是**战略推理**——在竞争和合作设定下,面对不确定性预判并影响其他智能体的行为 [gandhi2023strategic, zhang2024llm]。我们认为,即时战略(RTS)游戏是评估这些挑战的天然试验台:它们在部分可观测条件下,将战略推理落地为连续的时空决策,要求智能体分配资源、协调多个单位、适应对手并与盟友合作——所有这些都在一个可测量、可复现的模拟器中进行 [buro2003real, ontanon2013survey, robertson2014review]。虽然StarCraft II(SC2)已被广泛用作RTS AI研究的试验台 [vinyals2019grandmaster, ma2024large, ma2025ava, ahn2025hima, li2025llmpysc2],但我们选择基于Beyond All Reason(BAR)[bar2024beyondallreason] 构建,与SC2相比,BAR在单位和战场规模上均有扩展,如表1(https://arxiv.org/html/2606.18950#S1.T1)所示。这种更大的规模扩大了策略空间,要求智能体在更大的战场上对众多相互交互的单位进行更长期规划,同时协调多个盟友组并推理敌方组 [ontanon2013survey]。此外,BAR在设计上自动化了常规的**按单位**执行——从目标优先级选择到能量管理 [bar2024qualitipedia]——减少了低层次开销,同时保留了策略深度:智能体仍需构建和管理编组,决定何时何地交战,并协调空间机动。综合来看,BAR的大规模游戏玩法和**部分**低层次自动化,使其成为评估VLM在RTS中战略推理能力的合适平台。

表1:量化规模对比:StarCraft II(SC2)vs. BAR。单位种类:所有阵营中独特的单位和建筑。补给上限:每玩家单位限制。单位容量:所有玩家的单位总数上限。∗SC2使用加权人口系统,因此实际单位数量低于此上限。详情见补充材料。

|  | 单位种类 | 补给上限 | 单位容量 | 地图大小 | 玩家数量限制 |
|---|---|---|---|---|---|
| StarCraft II | 96 | 200∗200^\{\*\} | 1,600∗1\{,\}600^\{\*\} | 1×\\times8 |
| Beyond All Reason | 317 | 1,200 | 9,600 | >20×\\times20 |

然而,仅靠平台本身并不能保证严格的评估。RTS中的战略推理本质上是多方面的 [buro2003real],例如涵盖资源管理、对手建模等,并且根据盟友和对手的数量与角色不同而有不同的要求;因此,这些能力必须在各种设置下系统地评估。然而,当前的基准只部分解决了这一问题,缺乏对单个能力的系统诊断,且诊断覆盖范围固定不变 [ma2024large, ma2025ava, ahn2025hima, li2025llmpysc2]。为此,我们认为一个严格的RTS基准应满足:(i) **整体性**,捕获跨多种对战结构的完整游戏玩法;(ii) **诊断性**,通过受控场景针对单个能力进行测试,以便结果可归因于可识别的优势与弱点 [lin2025gamebot];(iii) **可扩展性**,允许研究人员按需扩展诊断覆盖范围——理想情况下通过自动生成并随经验改进,而非局限于固定的场景集 [li2025llmpysc2, ma2025ava]。

参照图注
图1:RTSGameBench概览。我们通过三个组件评估VLM的战略推理:(1) 跨多种对战结构的**完整游戏评估**;(2) 每个**诊断性迷你游戏**针对单个战略能力;(3) **自演化游戏生成框架**,通过多智能体协作将自由形式查询转化为新的诊断游戏,实现按需扩展。

为同时满足这些要求,我们提出了RTSGameBench,一个集成了三个组件的基准和评估平台(§\S3(https://arxiv.org/html/2606.18950#S3);图1(https://arxiv.org/html/2606.18950#S1.F1)):(i) 跨多种对战结构(1v1、对称/非对称团队、混战)的**完整游戏评估**;(ii) 基于RTS AI挑战分类 [buro2003real] 的**诊断性迷你游戏**;(iii) **自演化游戏生成框架**,它将自由形式查询转化为新的迷你游戏,并在连续迭代中提高效率和质量。此外,为使VLM能够在大型BAR游戏中运作——其庞大的单位数量和长持续时间需要可扩展的协调和持续的连贯性——我们提供了RTSGameAgent,一个将基于FSM的编组管理 [buckland2004programming] 与智能体记忆配对的基础智能体(§\S4(https://arxiv.org/html/2606.18950#S4))。利用此基线,我们在多种最先进的VLM上进行了系统实验,以表征其战略推理能力与局限。总结如下:
- • 我们引入了RTSGameBench,一个基于Beyond All Reason(大规模RTS游戏)的VLM基准与评估平台。
- • 我们提出了一个自演化游戏生成框架,它将自由形式查询转化为新的迷你游戏,并在连续迭代中改进,从而使研究人员能够将诊断覆盖范围扩展到固定场景之外。
- • 我们设计了RTSGameAgent,一个配备基于FSM的编组管理和智能体记忆的基线智能体,使大型RTS对VLM变得可处理。
- • 我们提供了对多种最先进的开源和闭源VLM的战略推理能力与局限的系统分析。

## 2 相关工作

**基于游戏的语言模型智能体评估。** 游戏是评估基于LLM和VLM的智能体的认知与决策能力的有效试验台 [paglieri2024balrog, hu2025lmgame, park2025orak]。早期的基准侧重于纯文本观察,无论是单智能体 [hu2024pokellmon] 还是多智能体战略设定 [qi2024civrealm],但往往缺乏多模态集成。虽然基于Minecraft的基准 [wang2025escapecraft, zheng2025mcu] 引入了多模态观察,但它们基本上仍局限于单智能体环境。此外,由于完整游戏评估常常会掩盖成功或失败的具体原因 [lin2025gamebot],近期研究已转向场景级评估 [tang2025dsgbench, zheng2025v] 或游戏提取的数据集 [xu2025vs]。然而,这些诊断方法通常依赖于特定领域内预定义的静态场景。相比之下,RTSGameBench提供了一个大规模的、多智能体的、要求在多模态观察下进行战略推理的RTS环境。通过用用户查询驱动的迷你游戏生成来补充预定义场景,我们的框架实现了可扩展且无边界的评估任务集,从而能够在具有挑战性的动态环境中更稳健地评估智能体性能。

**RTS游戏基准。** RTS游戏要求智能体在部分可观测条件下进行长视野规划和多单位协调,因此出现了基于SC2的多种基准。TextStarCraft II [ma2024large]、TextSCII-All [ahn2025hima] 和 HIVE [anne2025harnessing] 评估完整游戏或特定场景,但仅依赖文本观察。AVACraft [ma2025ava] 引入了多模态输入,但局限于孤立场景;LLM-PySC2 [li2025llmpysc2] 支持完整游戏评估,但侧重于战术执行而非不同的战略能力。此外,现有基准仅局限于1v1对战,忽略了合作与多智能体动态。我们通过RTSGameBench弥补了这些空白,提供了跨多种对战结构和基于RTS AI分类 [buro2003real] 的诊断任务的系统评估,并基于BAR构建,与现有RTS测试床相比,具有更大的规模和更复杂的策略。补充材料中有更多比较。

**自演化评估框架。** 固定评估集存在饱和风险,使得评估泛化能力变得困难 [ellis2023smacv2]。为扩大评估覆盖范围,先前工作提出了自动驾驶的语言驱动场景生成 [tan2023language, zhang2024chatscene] 和LLM评估的自动基准演化 [wang2025benchmark]。然而,扩展RTS游戏评估更为复杂,需要专门的设计、实现和基于模拟的验证。虽然自演化智能体已在优化智能体工作流程方面显示出成功 [Guan_2024, wang2025evoagentxautomatedframeworkevolving],但我们将其范式用于RTS游戏基准的扩展。我们的自演化框架从自由形式查询中生成、验证并保证多样化的迷你游戏质量,从而将基准持续扩展到静态套件之外。

表2:RTSGameBench中评估设置概览。上:完整游戏对战,改变玩家配置以暴露不同的战略需求。下:迷你游戏,每个游戏针对先前工作 [buro2003real] 所确定的单个战略能力;当部分可观测性对所测能力至关重要时,有选择地通过战争迷雾(FoW)引入不确定性下的决策制定。动作类型:§\S3(https://arxiv.org/html/2606.18950#S3):Build = 建筑建造,Prod. = 单位生产,Move = 单位移动。

| 完整游戏对战 | 模式 | 配置 | 战略需求 | 动作类型 | FoW |
|---|---|---|---|---|---|
| 决斗 | 1v1 | 个体决策制定 | Build + Prod. + Move | 开 |
| 对称团队 | 2v2, 3v3 | 盟友协调 | Build + Prod. + Move | 开 |
| 非对称团队 | 3v4 | 在人数劣势下协调 | Build + Prod. + Move | 开 |
| 混战 | 1v1v1v1 | 多极威胁优先级排序 | Build + Prod. + Move | 开 |

| 诊断性迷你游戏 | 战略能力 | 游戏 | 任务 | 动作类型 | FoW |
|---|---|---|---|---|---|
| 资源管理 | TCP | 在截止日期内生产目标单位 | Build + Prod. + Move | 开 |
| 时空推理 | MFD | 防御多个目标对抗错峰攻击 | Move | 关 |
| 对手建模 | FS-FP | 预判对手目标以优先决定交战 | Move | 关 |
| 协作 | FS-TC | 使用固定部队与盟友协调(团队) | Move | 关 |
| 对抗性规划 | SP | 在时间限制内突破静态防御 | Build + Prod. + Move | 开 |

## 3 RTSGameBench

如§\S1(https://arxiv.org/html/2606.18950#S1)所论证,对RTS中战略推理的严格评估需要一个整体性、诊断性且可扩展的平台——现有基准只能部分满足这些要求 [ma2024large, ma2025ava, ahn2025hima, li2025llmpysc2]。为此,我们引入了RTSGameBench,一个基于BAR [bar2024beyondallreason] 构建的基准与评估平台,集成了三个组件(图1(https://arxiv.org/html/2606.18950#S1.F1)):(i) **完整游戏评估**(§\S3.1(https://arxiv.org/html/2606.18950#S3.SS1)),(ii) **诊断性迷你游戏**(§\S3.2(https://arxiv.org/html/2606.18950#S3.SS2)),以及(iii) **自演化游戏生成框架**(§\S3.3(https://arxiv.org/html/2606.18950#S3.SS3))。

**游戏接口。** RTSGameBench中的所有评估设置共享一个共同的“观察-决策-行动”循环。游戏开始前,智能体接收静态游戏知识 K\\mathcal\{K\},包括场景描述、可用单位和建筑以及队伍配置。在每个决策步骤 tt,引擎从其内部状态 sts\_\{t\} 渲染视觉通道 vt\_v\_\{t\}——一个全局小地图和可定位于任意位置的局部摄像机视图——同时一个Python包装器 W\\mathcal\{W\} 提取结构化的文本观察;这两者共同构成多模态观察 ot\_o\_\{t\}。当战争迷雾启用时,两个通道都限于盟友的视线范围¹¹1战争迷雾是一种游戏机制,隐藏盟友单位视线范围之外的地图区域,引入环境的部分可观测性。。智能体的策略 π\\pi(由VLM实例化)随后选择动作:
\[
o_t=(vt, \mathcal{W}(st)), \quad a_t=\pi(o_t \mid \mathcal{K}), \quad s_{t+1} \leftarrow \text{Env}(s_t, a_t). \tag{1}
\]
动作空间包括三种类型——建筑建造、单位生产和单位移动——智能体决定在 (0,0)(0,0)–(100,100)(100,100) 坐标网格上的何处建造和移动,而游戏引擎 Env 处理低层次执行。该循环以固定间隔重复,环境在步骤之间暂停,确保评估目标是战略决策质量而非反应速度。完整的接口规范和 K\\mathcal\{K\} 细节见补充材料。

### 3.1 完整游戏对战

在完整游戏评估中,智能体从头至尾完成一局完整的BAR比赛。虽然现有RTS基准主要在1v1设定下评估智能体 [vinyals2019grandmaster, ma2024large, ma2025ava, ahn

相似文章

SVI-Bench:战略视频智能的动态微世界

Hugging Face Daily Papers

介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。

ForecastBench-Sim:模拟世界预测基准

arXiv cs.AI

介绍 ForecastBench-Sim,这是一个基于 Freeciv 游戏回放构建的模拟世界预测基准,旨在为评估 AI 系统的概率推理提供可控且可立即解析的任务。