MAPLE: 不完全信息游戏中AlphaZero的多状态聚合策略评估

arXiv cs.AI 2026/05/26 04:00 论文

imperfect-information-games alpha-zero tree-search monte-carlo reinforcement-learning game-ai

摘要

本文介绍了MAPLE，一种树搜索方法，它聚合来自多个采样子世界状态的策略和价值评估，将AlphaZero扩展至不完全信息游戏。在Phantom Go和Dark Hex上的实验显示，与基于PIMC的AlphaZero基线相比，Elo分别提升了291和136。

arXiv:2605.24139v1 公告类型：新不完全信息游戏（IIGs）具有挑战性，因为玩家必须在未完全观察真实游戏状态的情况下做出决策。尽管AlphaZero在完美信息游戏中取得了显著成功，将其扩展到IIGs仍然困难。现有的基于搜索的方法，如完美信息蒙特卡洛（PIMC），存在策略融合问题，而信息集蒙特卡洛树搜索（IS-MCTS）在与神经网络结合时计算成本高昂。在本文中，我们提出了多状态聚合策略评估（MAPLE），一种在单个搜索树内聚合来自多个采样子世界状态的策略和价值评估的树搜索方法，结合了PIMC和IS-MCTS的优点，同时保持可控的计算成本。我们进一步引入了基于孪生网络的采样策略，从信息集中选择信息丰富的世界状态。在Phantom Go和Dark Hex上的实验表明，MAPLE显著优于基于PIMC的AlphaZero基线，Elo分别提升了291和136。这些结果表明，MAPLE是AlphaZero风格学习在不完全信息游戏中的有效方法。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:05

# MAPLE：面向非完美信息游戏中AlphaZero的多状态聚合策略评估
来源：https://arxiv.org/abs/2605.24139
查看PDF (https://arxiv.org/pdf/2605.24139)

> 摘要：非完美信息游戏（IIGs）具有挑战性，因为玩家必须在无法完全观察真实游戏状态的情况下做出决策。尽管AlphaZero在完美信息游戏中取得了显著成功，但将其扩展到IIGs仍然困难。现有基于搜索的方法，例如完美信息蒙特卡洛（PIMC），存在策略融合问题，而信息集蒙特卡洛树搜索（IS-MCTS）在与神经网络结合时计算成本高昂。在本文中，我们提出了多状态聚合策略评估（MAPLE），这是一种树搜索方法，它在单个搜索树内聚合来自多个采样世界状态的策略和价值评估，结合了PIMC和IS-MCTS的优点，同时保持可控的计算成本。我们进一步引入了一种基于Siamese的采样策略，从信息集中选择信息丰富的世界状态。在Phantom Go和Dark Hex上的实验表明，MAPLE显著优于基于PIMC的AlphaZero基线，Elo评级分别提高了291和136。这些结果表明，MAPLE是面向AlphaZero风格学习在非完美信息游戏中的一种有效方法。

## 提交历史

来自：李千荣 \[查看电子邮件 (https://arxiv.org/show-email/2d3ffef9/2605.24139)\] **\[v1\]**2026年5月22日星期五18:59:01 UTC (269 KB)

MAPLE: 不完全信息游戏中AlphaZero的多状态聚合策略评估

相似文章

Big 2中不完美信息下的自我对弈强化学习

对 AlphaZero 价值预测的合理预期 [D]

@ickma2311: David Silver RL Course (Lecture 8): 整合学习与规划 AlphaGo是整合学习的优美示例…

GAGPO：广义优势分组策略优化

基于梯度外推的策略优化

提交意见反馈