MAPLE: 不完全信息游戏中AlphaZero的多状态聚合策略评估

arXiv cs.AI 论文

摘要

本文介绍了MAPLE,一种树搜索方法,它聚合来自多个采样子世界状态的策略和价值评估,将AlphaZero扩展至不完全信息游戏。在Phantom Go和Dark Hex上的实验显示,与基于PIMC的AlphaZero基线相比,Elo分别提升了291和136。

arXiv:2605.24139v1 公告类型:新 不完全信息游戏(IIGs)具有挑战性,因为玩家必须在未完全观察真实游戏状态的情况下做出决策。尽管AlphaZero在完美信息游戏中取得了显著成功,将其扩展到IIGs仍然困难。现有的基于搜索的方法,如完美信息蒙特卡洛(PIMC),存在策略融合问题,而信息集蒙特卡洛树搜索(IS-MCTS)在与神经网络结合时计算成本高昂。在本文中,我们提出了多状态聚合策略评估(MAPLE),一种在单个搜索树内聚合来自多个采样子世界状态的策略和价值评估的树搜索方法,结合了PIMC和IS-MCTS的优点,同时保持可控的计算成本。我们进一步引入了基于孪生网络的采样策略,从信息集中选择信息丰富的世界状态。在Phantom Go和Dark Hex上的实验表明,MAPLE显著优于基于PIMC的AlphaZero基线,Elo分别提升了291和136。这些结果表明,MAPLE是AlphaZero风格学习在不完全信息游戏中的有效方法。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:05

# MAPLE:面向非完美信息游戏中AlphaZero的多状态聚合策略评估
来源:https://arxiv.org/abs/2605.24139
查看PDF (https://arxiv.org/pdf/2605.24139)

> 摘要:非完美信息游戏(IIGs)具有挑战性,因为玩家必须在无法完全观察真实游戏状态的情况下做出决策。尽管AlphaZero在完美信息游戏中取得了显著成功,但将其扩展到IIGs仍然困难。现有基于搜索的方法,例如完美信息蒙特卡洛(PIMC),存在策略融合问题,而信息集蒙特卡洛树搜索(IS-MCTS)在与神经网络结合时计算成本高昂。在本文中,我们提出了多状态聚合策略评估(MAPLE),这是一种树搜索方法,它在单个搜索树内聚合来自多个采样世界状态的策略和价值评估,结合了PIMC和IS-MCTS的优点,同时保持可控的计算成本。我们进一步引入了一种基于Siamese的采样策略,从信息集中选择信息丰富的世界状态。在Phantom Go和Dark Hex上的实验表明,MAPLE显著优于基于PIMC的AlphaZero基线,Elo评级分别提高了291和136。这些结果表明,MAPLE是面向AlphaZero风格学习在非完美信息游戏中的一种有效方法。

## 提交历史

来自:李千荣 \[查看电子邮件 (https://arxiv.org/show-email/2d3ffef9/2605.24139)\] **\[v1\]**2026年5月22日星期五18:59:01 UTC (269 KB)

相似文章

Big 2中不完美信息下的自我对弈强化学习

arXiv cs.LG

本文提出了一个针对四人制不完美信息纸牌游戏Big 2的自我对弈强化学习框架,比较了策略梯度和基于价值的方法,并发现带有熵正则化的PPO优于其他方法。

对 AlphaZero 价值预测的合理预期 [D]

Reddit r/MachineLearning

本文分析了 AlphaZero 的价值预测如何受到自我对弈训练数据和噪声的影响,并质疑尽管 AlphaZero 在实证中表现强劲,其预测值是否能可靠地评估对阵不同风格对手时的胜率。

GAGPO:广义优势分组策略优化

arXiv cs.AI

GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。