在博弈论中,通才有时胜过专才
摘要
麻省理工学院研究人员合著的一篇论文表明,通用策略梯度算法在不完全信息博弈中可以胜过专门的博弈论算法,挑战了该领域长期以来的假设。
<p>无论你是在和单个对手打扑克,还是与另一位潜在买家竞购房产,你都在不完全信息的条件下操作。你知道自己在扑克游戏中握有什么牌,也知道自己能出得起比房屋标价高多少的价格,但你不知道对手的牌或另一位买家愿意出多高。</p><p>由麻省理工学院研究人员合著的一篇<a href="https://openreview.net/pdf?id=vClBDezZUo">论文</a>(在里约热内卢举行的国际学习表征会议(ICLR)上于四月发表)不会具体告诉你该怎么做,但它为所谓的不完全信息博弈提供了新见解。这类博弈涉及两名选手在“零和”竞争中对抗,一方的收益意味着另一方的损失。</p><p>该项目中的MIT研究人员包括麻省理工学院电气工程与计算机科学系(EECS)及信息与决策系统实验室(LIDS)的博士生Sobhan Mohammadpour;EECS助理教授、LIDS首席研究员Gabriele Farina。其他合著者包括德克萨斯大学奥斯汀分校(UT)的Max Rudolph、加州大学伯克利分校(UCB)的Nathan Lichtlé和Alexandre Bayen、卡内基梅隆大学(CMU)的J. Zico Kolter、UT的Amy X. Zhang '11, MNG '12、纽约大学的Eugene Vinitsky以及CMU的Samuel Sokota。</p><p>新工作的重点是可用于训练神经网络参与不完全信息博弈的算法。该领域长期以来的假设是,基于博弈论原理的算法在这种设定下会明显胜过一种通用算法——策略梯度方法,后者自20世纪90年代起用于决策。此处的“策略”基本上意味着战略,而“梯度”则指通向最大变化方向的道路——例如通向山顶(或谷底)。策略梯度方法用于训练神经网络做出决策,以连续小步迈向特定目标(比喻地说,就像登顶),在此过程中不断进行调整和路线修正,使智能体更接近预定目的地。</p><p>尽管策略梯度方法在20世纪90年代初被提出时,战略游戏并非其最初议程,但这篇新论文的作者仍然想知道这类算法在双人游戏中的表现。据Farina称,这些方法在多智能体环境中分析起来更为复杂。“你仍然可以朝着改善自身状况的方向移动,但由于对手的行动,这个方向可能会在游戏过程中不断变化,而且这些变化可能很迅速。”</p><p>“人们几乎理所当然地认为专门的博弈论算法是适用于这种设定的正确方法,”Sokota说。“我们的研究表明,策略梯度方法可能比这些专门算法更有效,而且专门算法的效果可能并不像人们想象的那么好——这引发了一个有趣的社会学问题:为什么这么长时间以来都没人注意到这一点。部分答案在于,该领域尚未进行严格评估算法所需的工程工作,因此很难判断哪些方法有效,哪些无效。”</p><p>因此,这项工作的一个主要贡献是提供了一种公正评估不同算法的方法,这些算法可以训练智能体(即神经网络)在不完全信息博弈中竞争。“我们采取了不同的方法,”Rudolph指出。“与该领域发表的许多论文不同,我们并非提出一种能击败其他算法的新算法。我们提出了一个可以评估这些算法的基准。”</p><p>简而言之,基准由用于评估算法性能的软件组成。“我们提供的是一个测试场或竞技场,人们可以拿着自己的算法,针对特定任务进行训练,看看它们表现如何,”Farina说。</p><p>该团队根据一个名为“可剥削性”的概念计算玩家的表现,Sokota解释说,这一概念衡量玩家对抗“最坏情况对手”时的表现。“在扑克这样的游戏中,这个对手不知道我的牌是什么,但知道我在任何给定手牌下的行为方式。”在该尺度上达到零意味着完美发挥,而高可剥削性分数则表明远非最优的表现。</p><p>该团队在实验中进行了五款游戏:两个版本的Phantom Tic-Tac-Toe(玩家看不到对手的动作),以及棋盘游戏Hex的两个不完全信息变体,还有另一款欺骗游戏Liar's Dice。</p><p>研究人员面临的最大挑战是让可剥削性度量适用于如此规模的游戏,这些游戏可能包含多达300亿个状态。此处的“状态”不仅包括所有可能的棋盘位置,还囊括游戏的整个历史,包括每一步和沿途的每一个失误。</p><p>“这就像看一个黑暗的房间,里面充满了你看不到的物体,”Mohammadpour说。“你需要找出这些物体的位置以及它们是如何到达那里的。”Mohammadpour补充道,以往的研究人员通常将可剥削性用于比他们分析的游戏小10万倍的游戏。</p><p>在针对这五款游戏进行的实验中,使用策略梯度算法训练的神经网络获得了比基于博弈论算法训练的网络更好的(更低的)可剥削性分数。在下一轮进行的直接对战中,策略梯度训练的网络再次击败了博弈论训练的对手。“这些结果令人欣慰,”Rudolph说,“因为它们让我们对自己的基准测试方法更有信心。”</p><p>该团队已将其基准测试软件免费提供并方便使用。“你不需要超级计算机,”Mohammadpour说。“你可以在普通笔记本电脑上运行它。而且你所需要做的就是在常用的基准测试软件集合OpenSpiel中添加一行代码。”</p><p>尽管他们的实验涉及一些相当晦涩的游戏,但Farina希望将这项工作置于更广泛的背景下。“请记住,‘游戏’一词实际上适用于任何多智能体战略交互,”他说。“因此,我们从这项研究中获得的经验教训绝不仅限于娱乐游戏。”</p><p>Vinitsky表示同意。“隐藏信息是这个世界的一个非常重要的特性,”他说。“它渗透到一系列事物中——包括军事行动、交易场景和谈判——所有这些都是在隐藏信息条件下进行的。我们能够在这些游戏中取得改进,意味着我们在其他场景中也能做得更好。”</p><p>未参与本研究的谷歌DeepMind计算机科学家和博弈论专家Ian Gemp对这些结果感到鼓舞。“这项工作是一个令人信服的提醒,”他说,“现代化的经典工具(如策略梯度方法)仍然是解决复杂战略问题的一条高产路径。”</p>
查看缓存全文
缓存时间: 2026/06/18 00:53
# 博弈论中,通才有时胜过专才
来源:https://news.mit.edu/2026/game-theory-generalists-sometimes-win-out-over-specialists-0617
无论你是与单一对手打扑克,还是与另一位潜在买家竞购房屋,你都是在信息不完善的条件下运作。你知道自己在扑克牌局中握着什么牌,也知道自己能在房屋报价基础上加价多少,但你不知道对手在牌局中的手牌,也不清楚另一位购房者愿意出多高的价。
一篇由麻省理工学院(MIT)研究人员共同撰写、于四月在里约热内卢举行的国际学习表征会议(International Conference on Learning Representations)上发表的论文(https://openreview.net/pdf?id=vClBDezZUo),不会具体告诉你在这些情况下该怎么做。但它确实为所谓的“非完美信息博弈”提供了新见解——这类博弈涉及两名参赛者在“零和”竞争中对抗,其中一方的收益意味着另一方的损失。
参与该项目的MIT研究人员包括:麻省理工学院电气工程与计算机科学系(EECS)及信息与决策系统实验室(LIDS)的博士生Sobhan Mohammadpour;EECS助理教授、LIDS首席研究员Gabriele Farina。其他共同作者包括:德克萨斯大学奥斯汀分校(UT)的Max Rudolph、加州大学伯克利分校(UCB)的Nathan Lichtlé和Alexandre Bayen、卡内基梅隆大学(CMU)的J. Zico Kolter、UT的Amy X. Zhang(’11, MNG ’12)、纽约大学的Eugene Vinitsky,以及CMU的Samuel Sokota。
这项新工作的重点在于可用于训练神经网络参与非完美信息博弈的算法。该领域长期以来普遍认为,基于博弈论原理的算法在此类情境下会明显胜过一种名为“策略梯度方法”(policy gradient methods)的通用算法——这种算法自20世纪90年代开始用于决策。“策略”在此语境中基本指代战略,而“梯度”则指通向最大变化方向(例如山顶或谷底)的路径。策略梯度方法被用于训练神经网络,使其以小步连续的方式朝特定目标(比如隐喻中的登顶)做出决策,并在过程中不断调整和修正路线,使智能体更接近预期目的地。
尽管战略博弈并非20世纪90年代初策略梯度方法最初设想的应用场景,但这篇新论文的作者们仍好奇这类算法在双人博弈中的表现如何。Farina表示,这些方法在多智能体情境下分析起来更为复杂。“你仍然可以朝某个方向调整以改善自身处境,但由于对手的行动,这个方向会在博弈过程中不断变化,而且变化可能很快。”
Sokota指出:“此前人们几乎理所当然地认为,专业的博弈论算法才是应对这种情境的正确方法。我们的研究表明,策略梯度方法可以比这些专门算法更有效,而专门算法可能并不像人们想象中那么好——这提出了一个有趣的社会学问题:为什么这么久以来都未被察觉?部分原因在于,该领域尚未完成严格评估这些算法所需的工程工作,因此很难判断哪些有效、哪些无效。”
因此,这项工作的主要贡献之一,是提供了一种公平评估不同算法的方法,这些算法可以教会智能体(即神经网络)如何在非完美信息博弈中竞争。Rudolph指出:“我们采用了一种不同的方法。与这个领域发表的许多论文不同,我们并非提出一种能击败其他算法的新算法,而是提出一个能够评估这些算法的基准测试。”
简单来说,基准测试由用于评估算法性能的软件构成。Farina说:“我们提供的是一片测试场或博弈场,人们可以带着自己的算法来,针对特定任务进行训练,并观察其表现如何。”
Sokota解释,研究小组通过一个名为“可被利用性”(exploitability)的概念来衡量玩家的表现,该指标衡量玩家在面对“最坏情况对手”时的表现。“在扑克这样的游戏中,这个对手不知道我的手牌如何,但会知道我在任何给定手牌下会如何行动。”在该尺度上达到零分意味着完美发挥,而高分则表明远非最优发挥。
团队在实验中进行了五款游戏的博弈:两种版本的“幻影井字棋”(Phantom Tic-Tac-Toe,玩家无法看到对手的落子)、两种非完美信息变体的棋盘游戏“六角棋”(Hex),以及一种名为“骗子骰子”(Liar’s Dice)的欺骗类游戏。
研究人员面临的最大挑战是如何让“可被利用性”指标适用于如此规模的游戏,其中可能包含多达300亿个“状态”。此处的“状态”不仅指棋盘上的所有可能位置,还包括博弈的完整历史,即每一步及其所有可能的失误。
Mohammadpour说:“这就像探究一个装满看不见物体的暗室。你需要想办法弄清楚这些物体在哪里,以及它们究竟是如何到达那里的。”他补充说,此前的研究人员通常将可被利用性用于比他们研究中分析的游戏小10万倍的场景。
在这五款游戏的实验中,使用策略梯度算法训练的神经网络获得了比基于博弈论算法训练的网络更好(更低)的可被利用性评分。在接下来的直接对抗中,策略梯度训练的网络再次击败了博弈论训练的对手。Rudolph说:“这些结果令人欣慰,因为它们让我们对自己的基准测试方法更有信心。”
该团队已将他们的基准测试软件免费公开,并使其易于使用。Mohammadpour说:“你不需要超级计算机。在一台普通笔记本电脑上就能运行。你只需在常用的基准测试软件集合OpenSpiel中添加一行代码即可。”
尽管他们的实验涉及一些相当冷门的游戏,但Farina希望将这项工作置于更广泛的背景下。他说:“请记住,‘游戏’这个词实际上适用于任何多智能体的战略互动。因此,我们从这项研究中获得的经验教训绝不仅限于娱乐性游戏。”
Vinitsky对此表示赞同。“隐藏信息是这个世界一个非常重要的特性,”他说,“它渗透到一系列事务中——包括军事行动、交易场景和谈判——所有这些都发生在信息隐藏的条件下。我们能够改进这些游戏,意味着我们在这些其他场景中也能做得更好。”
未参与这项研究的谷歌DeepMind计算机科学家兼博弈论专家Ian Gemp对这些结果感到鼓舞。他说:“这项工作是一个有力的提醒,即对经典工具(如策略梯度方法)进行现代化改造,仍然是解决复杂战略问题的一条高效路径。”
相似文章
@mdancho84: Google DeepMind的一位研究科学家刚刚发布了一篇58页的论文,探讨如何构建专注于博弈论的智能体。…
一篇来自Google DeepMind的58页论文,关于构建专精于博弈论的智能体,重点介绍了研究中的关键见解。
人与机器博弈:理清战略推理以推动AI发展
MIT教授Gabriele Farina通过将博弈论与机器学习相结合,推动AI决策能力的发展,这建立在他早期参与开发外交AI Cicero的工作基础之上。
AI超越数学家
AI已经进步到能够为原创数学研究做出贡献的程度,超越了人类数学家,并可能减少对该职业的需求,尽管人类与AI的团队合作可能最终表现出色。
策略感知模拟器学习的理论基础与高效算法
本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。
Big 2中不完美信息下的自我对弈强化学习
本文提出了一个针对四人制不完美信息纸牌游戏Big 2的自我对弈强化学习框架,比较了策略梯度和基于价值的方法,并发现带有熵正则化的PPO优于其他方法。