对 AlphaZero 价值预测的合理预期 [D]

Reddit r/MachineLearning 新闻

摘要

本文分析了 AlphaZero 的价值预测如何受到自我对弈训练数据和噪声的影响,并质疑尽管 AlphaZero 在实证中表现强劲,其预测值是否能可靠地评估对阵不同风格对手时的胜率。

AlphaZero 智能体通过在由该模型及其一系列前身模型自我对弈生成的数据上进行训练,学会了预测游戏状态的价值。从设计原理上看,该价值应反映从给定状态出发,对阵自身副本时的获胜概率。更准确地说,该价值衡量的是该状态对阵从当前模型所有前身中收集到的对手时的平均强度。这一平均值取决于从自我对弈数据池中采样训练数据的方式(例如使用最新 x 个模型的自我对弈滚动窗口,或通过几何加权更侧重近期模型等)。在每一轮自我对弈中,我们可以认为智能体(每位玩家一个副本)遵循某种策略落子。尽管该策略具有随机性(除非温度参数为零),它由基于预测价值和策略的 PUCT 函数定义,但该策略会因加入一定比例的 Dirichlet 噪声而受到轻微扰动。这种扰动的目的是让模型有机会偶然发现成功的动作,避免陷入某种僵化甚至狭隘的对弈模式中。由于噪声在决定落子时发挥了作用,上述“价值反映对阵模型自身胜率”的说法其实是一种过度简化。价值预测所基于的数据确实包含“异常”落子,据我理解,这是一种启发式论据,用于支持“模型的预测是基于与多种不同对手对弈的经验”这一观点。然而,由于那些与“预测”落子差异最大的动作属于异常值,它们对价值预测的影响也相应较小:真正主导价值预测的,是智能体自身的对弈风格及其风格的历史演变。因此,如果该智能体遇到强大的对手(无论是人类还是战绩优异的算法),为什么 AlphaZero 的价值预测能可靠地衡量智能体从给定位置对阵该对手的胜率呢?经验表明,AlphaZero 确实在多种游戏中超越了人类玩家和其他算法。我想知道这种成功是否也可以先验地预期到?或者是否可以设想,AlphaZero 在对抗某种特定算法时甚至可能惨败?该算法的落子虽然出现在 AlphaZero 的训练数据池中,但出现频率极低,以至于对预测值没有产生任何显著影响。
查看原文

相似文章

MuZero:软件1.0的终结者?

ML at Berkeley

本文探讨了谷歌 DeepMind 的 MuZero 算法作为“软件2.0”的典型案例,认为尽管深度学习在性能上超越了传统软件,但它仍然依赖于博弈树搜索等经典计算技术。

竞争性自我对弈

OpenAI Blog

OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈,能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为,如铲球、躲闪和虚晃等,表明自我对弈将成为未来强大 AI 系统的基础。