Big 2中不完美信息下的自我对弈强化学习

arXiv cs.LG 2026/05/29 04:00 论文

self-play reinforcement-learning imperfect-information card-games multiplayer-games deep-rl ppo

摘要

本文提出了一个针对四人制不完美信息纸牌游戏Big 2的自我对弈强化学习框架，比较了策略梯度和基于价值的方法，并发现带有熵正则化的PPO优于其他方法。

arXiv:2605.28863v1 Announce Type: new Abstract: 不完美信息多人游戏测试智能体是否能在隐藏信息、稀疏奖励和非平稳对手下行动。我们在四人制不完美信息纸牌游戏Big 2中研究了这些挑战。我们为Big 2开发了一个自我对弈强化学习框架，使得策略梯度代理和价值近似代理之间可以进行受控比较。在共同的环境、输入表示、训练预算和评估协议下，PPO在对抗随机、贪婪和启发式Big 2对手时优于蒙特卡洛Q近似、SARSA和Q学习。我们进一步发现，适度的熵正则化通过防止策略变得过于确定性来改进PPO，并且当前策略自我对弈提供了比检查点自我对弈或固定对手训练更强的有限预算课程。总之，这些结果表明Big 2是一个有用的受控环境，用于研究不完美信息、多人交互、延迟奖励和可变动作集下的深度强化学习。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:11

# 不完美信息下大老二的自对弈强化学习  
**来源：** https://arxiv.org/html/2605.28863  

###### 摘要  

不完美信息多人游戏测试了智能体在隐藏信息、稀疏奖励和非平稳对手条件下行动的能力。我们在四人不完美信息卡牌游戏大老二中研究了这些挑战。我们为大老二开发了一个自对弈强化学习框架，能够对策略梯度和价值近似智能体进行受控比较。在共同的环境、输入表示、训练预算和评估协议下，PPO 在对抗随机、贪婪和启发式大老二对手时优于蒙特卡洛 Q 近似、SARSA 和 Q 学习。我们进一步发现，适度的熵正则化通过防止策略变得过于确定来提升 PPO 的表现，而当前策略自对弈比检查点自对弈或固定对手训练提供了更强的有限预算课程。这些结果表明，大老二是一个研究不完美信息、多人交互、延迟奖励和可变动作集下的深度强化学习的有用受控环境。  

**关键词：** 强化学习，自对弈，不完美信息博弈，卡牌游戏  

## 1 引言  

由于游戏提供了精确的规则、奖励和评估协议，它们是强化学习（RL）的有用测试平台。在完美信息游戏中，自对弈 RL 和搜索已取得众多成功，从 AlphaGo 到 AlphaZero 和 MuZero（Silver et al., 2016 (https://arxiv.org/html/2605.28863#bib.bib19), 2018 (https://arxiv.org/html/2605.28863#bib.bib20); Schrittwieser et al., 2020 (https://arxiv.org/html/2605.28863#bib.bib21)）。不完美信息游戏更难：智能体必须根据部分观测采取行动，从公共行为推断隐藏状态，并在自对弈引起的非平稳对手分布下学习。在扑克、Stratego 和通用游戏系统中的进展展示了将学习与搜索、遗憾最小化或博弈论推理相结合的强大力量（Heinrich and Silver, 2016 (https://arxiv.org/html/2605.28863#bib.bib3); Moravcik et al., 2017 (https://arxiv.org/html/2605.28863#bib.bib4); Brown and Sandholm, 2018 (https://arxiv.org/html/2605.28863#bib.bib5); Brown et al., 2019 (https://arxiv.org/html/2605.28863#bib.bib2); Brown and Sandholm, 2019 (https://arxiv.org/html/2605.28863#bib.bib6); Brown et al., 2020 (https://arxiv.org/html/2605.28863#bib.bib7); Perolat et al., 2022 (https://arxiv.org/html/2605.28863#bib.bib11); Schmid et al., 2023 (https://arxiv.org/html/2605.28863#bib.bib12)）。近期关于动作抽象和策略梯度理论的工作强调了更好地理解不完美信息游戏中学习动态的必要性（Li et al., 2024 (https://arxiv.org/html/2605.28863#bib.bib13); Liu et al., 2025 (https://arxiv.org/html/2605.28863#bib.bib14)）。  

多人卡牌游戏对博弈论学习算法构成了挑战，因为它们涉及隐藏信息、稀疏的终端奖励以及在回合间急剧变化的动作空间。例如，斗地主游戏涉及三人竞争与合作以及巨大的可变动作空间（Zha et al., 2021 (https://arxiv.org/html/2605.28863#bib.bib8)），麻将需要推理四个玩家间的隐藏信息（Li et al., 2020 (https://arxiv.org/html/2605.28863#bib.bib9)），而 Pluribus 表明超越一对一扑克会引入全新性质上的战略问题（Brown and Sandholm, 2019 (https://arxiv.org/html/2605.28863#bib.bib6)）。  

我们研究大老二，一个四人出牌游戏。每个玩家只观察自己的手牌和公共出牌历史，而其他三手牌必须通过动作、过牌和剩余牌数来推断。游戏的合法动作是手牌特定的组合，例如单张、对子、三条、顺子、同花、葫芦、铁支、同花顺和过牌。此前的大老二研究展示了由于多人动态、巨大的状态和动作空间以及短期与长期战略权衡而掌握该游戏的难度（Chen and Lu, 2022 (https://arxiv.org/html/2605.28863#bib.bib16); Luo and Tan, 2024 (https://arxiv.org/html/2605.28863#bib.bib17); Chen and Lu, 2025 (https://arxiv.org/html/2605.28863#bib.bib18)）。大老二尤其具有挑战性，因为打出一个强的短期动作可能会大大减少玩家未来的选择，或让对手掌控游戏。因此，该游戏检验智能体是否能选择长期战略动作而非局部最优动作。  

此前的大老二智能体使用了自对弈 PPO、基于蒙特卡洛树搜索的对手预测、带有对手建模和动作过滤的蒙特卡洛训练，以及得分、风险、预测和控制的 MDP 风格分解（Charlesworth, 2018 (https://arxiv.org/html/2605.28863#bib.bib15); Chen and Lu, 2022 (https://arxiv.org/html/2605.28863#bib.bib16); Luo and Tan, 2024 (https://arxiv.org/html/2605.28863#bib.bib17); Chen and Lu, 2025 (https://arxiv.org/html/2605.28863#bib.bib18)）。我们的目标是互补的：我们在完整的四人环境中研究计算高效的深度强化学习方法，避免使用精心设计的对手模型、树搜索和超越合法动作过滤的启发式动作剪枝。  

尽管近期取得了进展，但尚未有受控研究来探究在大老二中，在相同的接口和有限的训练预算下，策略梯度方法还是基于值的方法学习更有效，以及训练设计选择如何影响稳定性和最终性能。我们在共同的环境、状态和动作表示、架构、训练预算和评估协议下比较了 PPO、蒙特卡洛 Q 近似、SARSA 和目标网络 Q 学习。这个有限计算环境让我们研究样本和计算效率，而非单纯通过规模带来的性能提升。我们发现 PPO 在测试的方法中表现最佳，并分析了两个显著影响其表现的因素：熵正则化（影响策略随机性）和对手课程（改变学习信号）。这些贡献共同提供了大老二中强化学习目标和训练设计选择的首次受控实证研究，并为未来关于搜索、抽象、对手建模和更大训练预算的工作提供了可访问的基线。  

## 2 游戏形式化  

我们将大老二建模为一个有限回合、回合制、不完美信息游戏，有 \(N=4\) 个玩家和一副标准的 52 张扑克牌。牌面值按 3、4、5、6、7、8、9、10、J、Q、K、A、2 的顺序排列，花色按钻石 < 梅花 < 红心 < 黑桃的顺序打破平局。  

每手牌由 13 张牌组成，在第一轮中，持有梅花 3 的玩家先出。后续轮次中，上一轮的赢家先出。出牌有两种模式：开打（开始一轮）和跟牌（响应前面的出牌）。开打时，玩家可以出任意合法组合。跟牌时，玩家必须出一个相同类型且排名更高的组合，或者过牌。  

允许的组合类型包括：单张、对子、三条、顺子（至少 3 张连续牌，不含 2）、同花（5 张同花色牌）、葫芦（三条加一对）、铁支（四张相同牌面值加一张任意牌）、同花顺（5 张同花色连续牌，不含 2），以及过牌。在四轮过后，如果所有其他玩家都过牌，则最后一个打出非过牌动作的玩家赢得该轮。游戏持续到只有一个玩家打光所有手牌，该玩家获胜。另有一个次级目标，即最大化剩余牌数的对手数量，但主目标是成为第一个打完手牌的人。  

**奖励。** 在每局游戏结束时，胜者获得 +1 奖励。为了提供额外的学习信号，我们还包括四个排名奖励：完成时的排名决定了终端奖励：第一名得 +1，第二名得 −1/3，第三名得 −1/3，最后一名得 −1/3。这为玩家提供了超越单纯获胜的细微反馈，并鼓励竞争性表现。  

**动作空间。** 动作空间随玩家当前手牌而变。在每次行动时，智能体必须从一组合法的手牌特定动作中选择，包括多种组合（例如，持有 {3, 5, 6, 7, 8, 9, 10} 可能允许打出 5-6-7-8-9 的顺子）。过牌如果合法，则始终为一个选项。合法动作的数量随手牌大小和分布而变化；大老二的平均合法动作数比斗地主少得多，但仍比许多玩具环境大。  

**状态表示。** 状态表示包括当前玩家的手牌、公共出牌历史以及对敌人手牌的推断特征。向量编码包括当前手牌的套牌位掩码（表示每张牌是否存在）、动作历史（每轮已打的组合）、剩余玩家数量、其他玩家的估计手牌大小（基于观测到的出牌和初始平均手牌大小），以及当前玩家的统计信息（例如，剩余同花数量、剩余顺子潜力）。该表示不包括完整的敌人手牌，但包含基于部分观测的推断特征。  

## 3 方法  

我们比较了四个深度强化学习智能体：PPO、蒙特卡洛 Q 近似（MCQ）、SARSA 和目标网络 Q 学习（Q-Learning）。所有智能体使用相同的输入表示和共享架构（一个带有 512 个隐藏单元的两层全连接网络）。  

**PPO。** 近端策略优化使用截断的替代目标（Schulman et al., 2017 (https://arxiv.org/html/2605.28863#bib.bib22)）。我们使用标准的 PPO 超参数：裁剪 \(\epsilon = 0.2\)、价值函数系数 0.5、熵系数 0.01（在消融实验中调整），以及每批数据一个时期的优化。  

**蒙特卡洛 Q 近似（MCQ）。** MCQ 是一个基于值的方法，通过从每局游戏中收集的轨迹更新 Q 函数。给定一个状态-动作对，目标是在该轨迹中观察到的后续折扣回报。损失是预测 Q 值与蒙特卡洛回报之间的均方误差。我们使用与 PPO 相同的网络架构，但输出层预测每个合法动作的动作值。  

**SARSA。** SARSA 是一个基于时序差分（TD）学习的同策略方法（Rummery and Niranjan, 1994 (https://arxiv.org/html/2605.28863#bib.bib23)）。更新使用当前策略的下一个状态-动作对来构造 TD 目标。我们使用 \(\epsilon\)-贪心探索（\(\epsilon = 0.1\)）。  

**Q 学习。** 我们使用带有目标网络和固定学习率的深度 Q 学习（Mnih et al., 2015 (https://arxiv.org/html/2605.28863#bib.bib24)）。目标网络每 1000 步更新一次。Q 学习是一种离策略方法，使用贝尔曼最优性算子。我们使用与 SARSA 相同的 \(\epsilon\)-贪心探索。  

**训练预算。** 所有智能体在相同的有限预算下训练：100 个训练的 epoch，每个 epoch 包含 200 局自对弈游戏（总共 20000 局）。每个 epoch 中，当前玩家与其他三个智能体（自我副本）对弈。这种自对弈设置模拟了竞争性课程。  

**评估。** 评估在每 5 个 epoch 后进行，使用固定数量的游戏（400 局）对抗三个基线对手：随机（从合法动作中均匀采样）、贪婪（最大化近端子奖励的启发式）和启发式（下面描述的更复杂的混合策略）。评估是在智能体当前参数下进行的，不更新网络。我们报告平均胜率（除以 4 以考虑多人缩放，因为在四人游戏中随机期望是 0.25）作为主要指标。  

**启发式基线对手。** 我们实现了一个定制的启发式对手，结合了以下策略：  

#### 初步动作排名。  
RankAction 为每个合法动作分配一个分数，考虑组合类型、牌点优势、剩余牌结构保存以及游戏阶段。高分动作优先选择。排序规则包括：  

- 单张：按牌值排序。  
- 对子：按对子中较高牌值排序。  
- 三条：按三条的牌值排序。  
- 顺子：按长度和最高牌排序。  
- 同花、葫芦、铁支和同花顺：按标准排序。  

#### 动作选择。  
动作选择执行以下步骤：  

1.  根据 RankAction 分数从低到高对所有合法动作进行排序。  
2.  创建一个候选列表，包含排名前 \(k\) 的动作，其中 \(k = \max(\text{floor}(|A|/2), 2)\)。  
3.  评估每个候选动作：计算手牌操作后的结构分数，包括剩余对子的数量、五张组合的数量以及无效牌的数量。  
4.  选择具有最佳结构分数的动作。  
5.  如果使用了 BreakPenalty，则进行惩罚调整。  

**BreakPenalty。** BreakPenalty 在早期游戏中返回 8，在中期游戏中返回 4，当一个动作打破了剩余的对子或三条时。当一个动作打破了潜在的五张牌结构时，早期游戏惩罚为 20，中期游戏为 8，晚期游戏为 4。实现检查铁支、葫芦的组成部分、具有至少五张同花色的同花，以及排除 2 的五张顺子窗口。  

**游戏阶段。** 启发式通过行动玩家的手牌大小来定义早期、中期和晚期游戏：如果 \(|H| > 10\) 则为早期，如果 \(6 \leq |H| \leq 10\) 则为中期，如果 \(|H| \leq 5\) 则为晚期。

Big 2中不完美信息下的自我对弈强化学习

相似文章

学会匹配：具有时间扩展反馈的双边匹配

你的语言模型就是其自身的评论者：利用演员内部状态进行价值估计的强化学习

从正确性到偏好：个性化智能体强化学习框架

MAPLE: 不完全信息游戏中AlphaZero的多状态聚合策略评估

自蒸馏策略梯度

提交意见反馈