Quantum Frog:量化时间合作游戏中的涌现合作与难度缩放
摘要
本文介绍了Quantum Frog,一种具有量化时间机制的双人合作游戏,并利用强化学习分析了难度缩放、最优策略以及智能体之间的涌现合作。
arXiv:2605.23930v1 公告类型:新
摘要:我们介绍了 \emph{Quantum Frog},一种基于新颖的 \emph{量化时间}机制的双人合作游戏,在该机制中,环境仅在玩家行动时推进。受经典街机游戏Frogger的启发,Quantum Frog要求两只青蛙穿越一个8$\times$8的交通网格,并一起到达对面。我们使用强化学习(RL)作为分析工具来回答四个设计问题:(1) 游戏难度如何随交通密度变化;(2) 最优单智能体策略是什么以及为什么;(3) 独立游戏与合作游戏之间的合作差距有多大;(4) 当智能体被激励合作时,会涌现出什么样的联合策略?我们通过五个递进阶段训练智能体:表格Q学习、深度Q网络(\DQN)、独立\DQN(\IDQN)以及多智能体近端策略优化(\MAPPO,使用集中式评论家),并针对一到六辆车的交通密度分别进行评估。我们的主要发现是:(i) 量化时间机制使得 \emph{冲刺策略}(每一步直接向上移动)成为普遍最优,因为暴露在交通中的时间被最小化;(ii) 增加一个不协调的第二玩家比将单个专家玩家的交通量增加六倍更困难;(iii) 合作训练相对于独立智能体将联合成功率提高了32-34个百分点,并将回合长度从$\sim$90步减少到$\sim$6步;(iv) 涌现的合作策略是同步冲刺,而不是复杂的位置协调,这表明在时间关键型合作任务中,仅共享激励就足以协调智能体。这些发现为Quantum Frog的商业设计提供了具体的、基于经验的指导,并为环境机制在塑造多智能体学习动态中的作用提供了更广泛的见解。
查看缓存全文
缓存时间: 2026/05/26 08:59
# 量化时间合作博弈中的涌现协作与难度缩放
源:https://arxiv.org/html/2605.23930
###### 摘要
我们引入*Quantum Frog*,一款基于新型*量化时间*机制的双人合作博弈,其中环境仅在玩家行动时推进。受经典街机游戏Frogger启发,Quantum Frog要求两只青蛙穿越交通流构成的8×\\times8网格,共同到达对岸。我们使用强化学习(RL)作为分析透镜,回答四个设计问题:(1)游戏难度如何随交通密度缩放;(2)最优单智能体策略是什么,为什么;(3)独立双智能体玩法与协作双智能体玩法之间的协作差距有多大;(4)当智能体被激励协作时,会涌现出什么联合策略?我们通过五个递进阶段训练智能体:表格Q学习、深度Q网络(dqn)、独立dqn(idqn)以及带集中式评论家的多智能体近端策略优化(mappo),并针对一到六辆车的交通密度进行评估。主要发现:(i)量化时间机制使得“冲刺策略”(每步直接向上移动)成为普遍最优,因为暴露于交通的时间被最小化;(ii)增加一个不协调的第二玩家比让单个专家玩家面对六倍交通还要困难;(iii)协作训练相比独立智能体,联合成功率提升了+32–34个百分点,并将回合长度从∼\\sim90步减少到∼\\sim6步;(iv)涌现的协作策略是同步冲刺,而非复杂的位置协调,这表明在时间紧迫的协作任务中,共享激励足以使智能体对齐。这些发现为Quantum Frog的商业化设计提供了具体的、基于经验的指导,并为环境机制在塑造多智能体学习动态中的作用提供了更广泛的见解。
###### 目录
1. 1引言 (https://arxiv.org/html/2605.23930#S1)
2. 2相关工作 (https://arxiv.org/html/2605.23930#S2)
3. 3环境 (https://arxiv.org/html/2605.23930#S3)1. 3\.1游戏描述 (https://arxiv.org/html/2605.23930#S3.SS1) 2. 3\.2状态表示 (https://arxiv.org/html/2605.23930#S3.SS2) 3. 3\.3动作空间 (https://arxiv.org/html/2605.23930#S3.SS3) 4. 3\.4奖励函数 (https://arxiv.org/html/2605.23930#S3.SS4) 5. 3\.5回合动态 (https://arxiv.org/html/2605.23930#S3.SS5) 6. 3\.6实现 (https://arxiv.org/html/2605.23930#S3.SS6)
4. 4方法 (https://arxiv.org/html/2605.23930#S4)1. 4\.1表格Q学习(阶段1–2)(https://arxiv.org/html/2605.23930#S4.SS1) 2. 4\.2深度Q网络(阶段3)(https://arxiv.org/html/2605.23930#S4.SS2) 3. 4\.3独立DQN(阶段4)(https://arxiv.org/html/2605.23930#S4.SS3) 4. 4\.4带集中式评论家的多智能体PPO(阶段5)(https://arxiv.org/html/2605.23930#S4.SS4) 5. 4\.5评估协议 (https://arxiv.org/html/2605.23930#S4.SS5)
5. 5结果 (https://arxiv.org/html/2605.23930#S5)1. 5\.1单智能体性能(阶段1–3)(https://arxiv.org/html/2605.23930#S5.SS1) 2. 5\.2无协作的多智能体(阶段4:IDQN)(https://arxiv.org/html/2605.23930#S5.SS2) 3. 5\.3协作多智能体(阶段5:MAPPO)(https://arxiv.org/html/2605.23930#S5.SS3)
6. 6讨论 (https://arxiv.org/html/2605.23930#S6)1. 6\.1作为涌现最优性的冲刺策略 (https://arxiv.org/html/2605.23930#S6.SS1) 2. 6\.2协作差距及其形状 (https://arxiv.org/html/2605.23930#S6.SS2) 3. 6\.3涌现协作是同步冲刺,而非战术协调 (https://arxiv.org/html/2605.23930#S6.SS3) 4. 6\.4对游戏设计的启示 (https://arxiv.org/html/2605.23930#S6.SS4) 5. 6\.5对协作MARL的更广泛启示 (https://arxiv.org/html/2605.23930#S6.SS5) 6. 6\.6局限性 (https://arxiv.org/html/2605.23930#S6.SS6)
7. 7结论 (https://arxiv.org/html/2605.23930#S7)
8. 参考文献 (https://arxiv.org/html/2605.23930#bib)
9. A超参数 (https://arxiv.org/html/2605.23930#A1)
## 1引言
设计一款多人游戏本质上是一个关于激励结构的问题:什么样的机制会鼓励玩家沟通、协调,并找到优雅的解决方案来解决难题?从分析角度回答这些问题出了名困难,人类试玩者提供主观且嘈杂的信号,而全面的人类试验成本高昂。强化学习智能体提供了一种替代方案:经过训练以优化奖励函数的策略将比人类试玩更系统性地揭示游戏的真实激励图景,揭示游戏实际奖励什么行为。
#### 游戏。
Quantum Frog是一款在8×\\times8网格上进行的二维回合制游戏。两只青蛙从最底行开始,必须穿越到顶部,同时避开一排水平移动的车辆。游戏的定义性机制是*量化时间*:环境在玩家决策之间冻结,每次青蛙行动时仅前进一个时间单位。这与连续时间变体(如原始Frogger(Konami,1981) (https://arxiv.org/html/2605.23930#bib.bib22))有根本不同:玩家可以不经惩罚地思考,且车辆位置完全可预测。游戏是协作性的:两只青蛙都必须生存下来并到达对岸,要求玩家沟通并共同行动。图1 (https://arxiv.org/html/2605.23930#S1.F1)展示了棋盘布局和一个完整时间步。
参见图注图1:Quantum Frogs游戏表示。两只青蛙(表示为男孩和女孩角色)从最底行(第7行)开始;四辆车以不同速度和方向水平移动。玩家选择动作时整个棋盘冻结。
#### 动机。
量化时间机制在游戏设计研究中尚待充分探索。它将街机反应挑战转化为组合规划问题,急剧改变了最优策略和难度缩放的特性。在游戏面向商业受众之前,通过经验理解这些效果,正是RL智能体所能提供的分析。除了具体游戏,这项工作还触及协作多智能体RL中的一个基本问题:当智能体拥有共同目标时,涌现的协调采取什么形式,以及学习算法的选择在多大程度上决定了协作是否出现?
#### 研究问题。
我们提出四个具体的研究问题来指导实验设计:
1. RQ1.难度缩放 最优单智能体策略的胜率如何随交通密度(车辆数量)变化?
2. RQ2.最优单智能体策略 收敛的智能体会采用什么策略,量化时间规则如何塑造它?
3. RQ3.协作差距 当智能体接受协作训练(共享奖励、集中式评论家)而非独立训练(独立奖励)时,联合成功率提高了多少?
4. RQ4.涌现的联合策略 协作智能体发现了什么协调行为?它是否类似于复杂的战术协作,还是更简单的结构?
#### 贡献。
- •一个新颖的合作游戏环境Quantum Frog,使用Gymnasium API (Towers et al., 2023) (https://arxiv.org/html/2605.23930#bib.bib18)实现并开源。
- •一项跨越表格Q-Learning到协作MAPPO的五阶段实证研究,提供了跨算法族的清晰课程。
- •对所有四个研究问题的定量回答,包括在量化时间设置中首次测量协作差距。
- •基于RL分析的具体游戏设计建议。
## 2相关工作
#### 游戏的深度强化学习。
Mnih等人 (2015) (https://arxiv.org/html/2605.23930#bib.bib1) 证明,直接从像素观察训练的深度Q网络(DQN)可以在49款Atari游戏上达到人类水平的表现,确立了RL作为游戏分析工具的可行性。Silver等人 (2016) (https://arxiv.org/html/2605.23930#bib.bib2) 将其扩展到组合规划领域,推出了AlphaGo,展示了RL智能体可以发现人类专家无法看到的策略。我们的工作在精神上更接近Mnih等人 (2015) (https://arxiv.org/html/2605.23930#bib.bib1):我们使用RL不是为了击败人类玩家,而是为了描述游戏的奖励图景。
#### 难度缩放与游戏设计。
Smith 和 Whitehead (2010) (https://arxiv.org/html/2605.23930#bib.bib21) 形式化了程序化难度生成。Hunicke等人 (2004) (https://arxiv.org/html/2605.23930#bib.bib20) 引入了机制-动态-美学(MDA)框架来分析游戏规则如何产生玩家体验。我们的工作为这一传统贡献了一种基于RL的经验方法:不是从分析角度推理机制,而是让智能体直接发现隐含的难度函数。
#### 多智能体强化学习。
自Busoniu等人 (2008) (https://arxiv.org/html/2605.23930#bib.bib12) 以来,协作MARL问题已得到广泛研究。一个核心挑战是*非平稳性*:随着智能体同时学习,每个智能体的有效环境发生变化,违反了单智能体RL收敛保证所需的平稳性假设 (Hernandez-Leal等人, 2017) (https://arxiv.org/html/2605.23930#bib.bib13)。*独立Q学习* (Tan, 1993) (https://arxiv.org/html/2605.23930#bib.bib11) 忽略此问题,用各自奖励和回放缓冲区训练每个智能体;尽管有理论限制,它仍然是一个强基准。
#### 集中式训练与分布式执行(CTDE)。
CTDE范式 (Oliehoek 和 Amato, 2016) (https://arxiv.org/html/2605.23930#bib.bib14) 通过在训练时允许更丰富的信息同时保持分布式执行来应对非平稳性。Lowe等人 (2017) (https://arxiv.org/html/2605.23930#bib.bib8) 在CTDE下应用了Actor-Critic方法(MADDPG)。Rashid等人 (2018) (https://arxiv.org/html/2605.23930#bib.bib7) 引入了QMIX,一种价值分解方法,使用单调混合网络确保个体贪婪动作组合为联合最优(IGM原则)。Yu等人 (2022) (https://arxiv.org/html/2605.23930#bib.bib6) 表明,将近端策略优化 (Schulman等人, 2017) (https://arxiv.org/html/2605.23930#bib.bib4) 直接扩展到多智能体设置(MAPPO),在星际争霸多智能体挑战 (Samvelyan等人, 2019) (https://arxiv.org/html/2605.23930#bib.bib15) 上,与更专门的协作算法相比具有竞争力或更优。我们采用MAPPO作为主要协作算法,理由是其稳定性和强经验表现。
#### 协作游戏环境。
星际争霸多智能体挑战(SMAC)(Samvelyan等人, 2019) (https://arxiv.org/html/2605.23930#bib.bib15)、Overcooked (Carroll等人, 2019) (https://arxiv.org/html/2605.23930#bib.bib16) 和协作导航任务 (Lowe等人, 2017) (https://arxiv.org/html/2605.23930#bib.bib8) 是标准的协作MARL基准。我们的环境比这些更简单且更具可解释性,适合隔离量化时间机制的效果,避免环境复杂性的混淆。
## 3环境
### 3.1游戏描述
Quantum Frog在一个离散的8×\\times8网格上进行。一只或两只青蛙从最底行(第7行)开始,必须到达最顶行(第0行)。水平移动的车辆占据第1-6行;第0行(目标)和第7行(起点)无车辆。车辆离开网格边界时会环绕出现。
#### 量化时间规则。
与连续时间交通游戏不同,每次青蛙调用step()时,环境恰好前进一个模拟时间单位。在步之间,所有智能体和车辆都冻结。此规则消除了反应时间压力,使游戏成为一个完全可观测、确定性的规划问题:在每个决策点,玩家拥有完整信息且无限制的思考时间。
### 3.2状态表示
状态是一个三通道8×\\times8整数数组 s∈Z3×8×8\mathbf{s}\in\mathbb{Z}^{3\times 8\times 8}:
s[0,r,c]\displaystyle\mathbf{s}[0,r,c]∈{0,1,2}\displaystyle\in\{0,1,2\} 青蛙位置(1 = 青蛙A, 2 = 青蛙B)
s[1,r,c]\displaystyle\mathbf{s}[1,r,c]∈{0,1}\displaystyle\in\{0,1\} 车辆存在
s[2,r,c]\displaystyle\mathbf{s}[2,r,c]∈Z\displaystyle\in\mathbb{Z} 带符号的车辆速度
扁平观测向量的维度为 3×8×8=1923\times 8\times 8=192。此表示与多层感知器(MLP)和卷积网络策略都兼容,并编码了最优游戏所需的所有信息。
### 3.3动作空间
每只青蛙从五个基本动作中选择:{上,下,左,右,不动}。在单青蛙实验中,动作空间为 Discrete(5)\text{Discrete}(5)。在双青蛙实验中,我们使用 MultiDiscrete([5,5])\text{MultiDiscrete}([5,5]) 表示联合动作,相当于25个联合动作组合。
### 3.4奖励函数
奖励函数平衡了终端结果与密集塑造:
rt={+100青蛙到达第0行(目标)−100青蛙占据车辆格子(碰撞)+1青蛙向上前进一行−1否则(步成本)r_{t}=\begin{cases}+100 &\text{青蛙到达第0行(目标)}\\ -100 &\text{青蛙占据车辆格子(碰撞)}\\ +1 &\text{青蛙向上前进一行}\\ -1 &\text{否则(步成本)}\end{cases}(1)
步成本 -1-1 惩罚思考时间并鼓励高效路径。进展塑造 +1+1 在达到稀疏终端奖励之前提供密集梯度。在双青蛙协作训练(MAPPO)中,团队奖励为 rteam=rA+rBr_{\text{team}}=r_{A}+r_{B},由两个智能体平等共享。
### 3.5回合动态
一个回合在以下情况终止:(a) 两只青蛙都到达第0行(成功),或 (b) 任何青蛙与车辆相撞(失败)。若200步内未满足任一条件,则截断回合。每回合开始时,车辆速度从一个可配置集合(例如 {1}\{1\} 或 {1,2}\{1,2\} 格子/步)中均匀采样。
### 3.6实现
环境遵循Gymnasium API (Towers等人, 2023) (https://arxiv.org/html/2605.23930#bib.bib18) 实现,暴露 reset()、step(action) 和 render() 方法。训练使用向量化环境(最多32个并行实例)以提高吞吐量。所有实验在单节点(配备四张NVIDIA GPU)上运行;每个种子占用一张GPU。
## 4方法
我们通过五个递进阶段训练智能体,每个阶段增加环境和算法的复杂性。表1 (https://arxiv.org/html/2605.23930#S4.T1) 总结了实验设计。
表1:实验阶段。每个阶段在评估前训练至收敛。### 4.1表格Q学习(阶段1–2)
我们实现一步Q学习 (Watkins 和 Dayan, 1992) (https://arxiv.org/html/2605.23930#bib.bib3),采用 ε\varepsilon-贪婪策略和乘积 ε\varepsilon-衰减:
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)−Q(s,a)]Q(s,a)\leftarrow Q(s,a)+\alpha\bigl[r+\gamma\max_{a^{\prime}}Q(s^{\prime},a^{\prime})-Q(s,a)\bigr](2)
Q表是一个以 obs.tobytes() 为键的哈希映射,将每个观测状态映射到一个初始化为零的长度5的值向量。参数:α=0.1\alpha=0.1,γ=0.99\gamma=0.99,ε0=1.0\varepsilon_{0}=1.0,εmin=0.01\varepsilon_{\min}=0.01,每回合衰减=0.9995=0.9995。训练运行20,000回合(阶段1)和50,000回合(阶段2)。
### 4.2深度Q网络(阶段相似文章
多智能体强化学习中的量子优势
本文提供了实证证据,表明量子纠缠在多智能体强化学习中提供了可测量的优势,通过CHSH游戏和协作导航任务展示了相对于经典基线的性能提升。
QuantFPFlow:连续强化学习中的Fokker-Planck策略优化的量子振幅估计
介绍QuantFPFlow,一种强化学习框架,利用量子振幅估计在连续控制的Fokker-Planck配分函数估计中实现二次加速,从而改善探索并避免局部最优。
爱的迷雾:在游戏环境中利用基于亲和力的强化学习构建具有美德行为的智能体
本文介绍了一个基于桌游《爱的迷雾》的多智能体环境,用于评估基于亲和力的强化学习在赋予 AI 智能体美德行为方面的效果。作者证明,局部亲和力能够提升智能体在竞争性与合作性目标上的表现,推动机器伦理研究突破简单网格世界环境的局限。
可扩展的约束多智能体强化学习:通过状态增强与一致性实现可分离动力学
本文提出了一种分布式方法,用于约束多智能体强化学习,该方法采用状态增强策略学习和对偶变量上的邻居间一致性,以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明,一致性协调对可行性至关重要:与集中式训练方法不同,它能够扩展到数千个智能体。
通过分位数贝叶斯风险MDP实现在线强化学习中鲁棒性与探索的动态权衡
本文提出了一种用于在线强化学习的分位数贝叶斯风险感知MDP框架,该框架能够随时间自适应地平衡鲁棒性与探索,提供了理论遗憾界并展示了强大的实证性能。