人与机器博弈:理清战略推理以推动AI发展

MIT News — Artificial Intelligence 新闻

摘要

MIT教授Gabriele Farina通过将博弈论与机器学习相结合,推动AI决策能力的发展,这建立在他早期参与开发外交AI Cicero的工作基础之上。

<p>Gabriele Farina在意大利北部一个多山的葡萄酒产区的小镇长大。他的父母都没有大学学位,虽然他们都坚信自己“不懂数学”,但Farina说,他们还是给他买了他想看的技术书籍,并且没有劝阻他选择侧重科学而非古典学科的高中。</p><p>大约在14岁时,Farina开始关注一个后来证明对其职业生涯具有奠基意义的想法。</p><p>“我很早就被这样一个观念深深吸引:机器可以做出比人类好得多的预测或决策,”他说。“由人类创造的数学和算法能够构建出在某种程度上超越其创造者的系统,而这些系统又建立在简单的基石之上,这对我来说一直是一个巨大的震撼来源。”</p><p>16岁时,Farina编写代码来解决他和13岁的妹妹一起玩的一款棋盘游戏。</p><p>“我通过一局又一局的计算来找出最佳走法,并向我妹妹证明,在我们任何一方察觉到之前,她其实早就输了,”Farina说道,并补充说他妹妹对这个新系统并不那么着迷。</p><p>如今,Farina是MIT电气工程和计算机科学系(EECS)的助理教授,也是信息与决策系统实验室(LIDS)的课题负责人。他将博弈论的概念与机器学习、优化和统计学等工具相结合,以推动决策领域的理论和算法基础的发展。</p><p>Farina进入米兰理工大学(Politecnico di Milano)攻读大学时,主修自动化与控制工程。然而,随着时间的推移,他意识到真正激发他兴趣的不仅仅是“应用已知技术”,而是“理解并扩展这些技术的基础”,他说。“我逐渐将重心更多地转向理论研究,同时仍然非常关心展示这些理论的具体应用。”</p><p>Farina在米兰理工大学的导师Nicola Gatti(计算机科学与工程学教授兼研究员)向他介绍了计算博弈论的研究问题,并鼓励他申请博士学位。当时,作为家中第一代大学生,且身处博士体系截然不同的意大利,Farina说他甚至不知道什么是博士学位。</p><p>尽管如此,在获得本科学位一个月后,Farina开始在卡内基梅隆大学攻读计算机科学博士学位。在那里,他的研究和论文赢得了多项荣誉,他还获得了Facebook经济学与计算奖学金。</p><p>在博士毕业之际,Farina在Meta的基础AI研究实验室(FAIR)担任了一年的研究科学家。他的主要项目之一是帮助开发Cicero,这是一个能够在涉及结盟、谈判以及识破其他玩家虚张声势的游戏中击败人类玩家的AI。</p><p>Farina表示:“在构建Cicero时,我们将其设计为:如果结盟不符合其利益,它就不会同意结盟;同样,它也能理解玩家是否可能在撒谎,因为如果玩家按照他们的提议行事,将违背他们自身的激励机制。”</p><p>2022年发表在《MIT科技评论》上的一篇文章指出,Cicero代表了向能够解决需要妥协的复杂问题的AI迈出的重要一步。</p><p>在Meta工作一年后,Farina加入MIT教职团队。2025年,他荣获美国国家科学基金会CAREER奖。他的工作基于博弈论及其数学语言——描述当各方目标不同时会发生什么,并量化“均衡”状态(即没有人有理由改变策略的状态)——旨在简化那些计算这种均衡可能需要数十亿年的大规模、复杂的现实世界场景。</p><p>“我研究如何利用优化和算法来高效地找到这些稳定点,”他说。“我们的工作试图为理论背后的数学原理提供新的见解,更好地控制和预测这些复杂的动态系统,并利用这些思想来计算大型多智能体交互的良好解决方案。”</p><p>Farina特别感兴趣的是具有“不完全信息”的环境,这意味着某些智能体拥有其他参与者未知的信息。在这种情况下,信息具有价值,参与者必须战略性地利用其所拥有的信息采取行动,以免泄露信息从而降低其价值。一个日常例子出现在扑克游戏中,玩家通过虚张声势来隐藏关于自己牌面的信息。</p><p>据Farina介绍,“现在我们生活在一个机器比人类更擅长虚张声势的世界里。”</p><p>一个拥有“大量不完全信息”的情境将Farina带回了他的棋盘游戏起点。战略棋(Stratego)是一款军事策略游戏,曾激发耗资数百万美元的研究努力,以产生能够击败人类玩家的系统。由于需要复杂的风险计算和误导(或虚张声势),Farina表示,这可能是唯一一种主要努力未能产生超人级表现的古典游戏。</p><p>凭借成本不到1万美元的新算法和训练(而非数百万美元),Farina和他的研究团队击败了历史上最强大的玩家——取得了15胜、4平、1负的战绩。Farina表示,他对如此经济地产生这样的结果感到兴奋,并希望“这些新技术能被纳入未来的技术流程中”,他说。</p><p>“我们已经看到在构建能够进行战略推理并在巨大的动作空间或不完全信息下做出明智决策的算法方面取得了持续进展。我很期待看到这些算法被纳入正在我们身边发生的更广泛的AI革命中。”</p>
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:46

# 人类与机器博弈:解开策略推理之谜以推进人工智能发展 来源:https://news.mit.edu/2026/untangling-strategic-reasoning-to-advance-ai-gabriele-farina-0505 Gabriele Farina 在意大利北部一个多山的葡萄酒产区小镇长大。他的父母都没有大学学位,尽管两人都确信自己“不懂数学”,但 Farina 说,他们为他购买了想要的那些技术书籍,并且没有阻止他选择以科学为导向而非古典文科的高中。 大约在 14 岁时,Farina 专注于一个后来证明对其职业生涯具有基础意义的想法。 “我很早就对这样一个想法着迷:机器做出预测或决策的能力可以远远优于人类,”他说,“人类创造的数学和算法能够构建出在某些方面超越其创造者的系统,而这些系统又是建立在简单的构建模块之上的,这始终让我感到敬畏。” 16 岁时,Farina 编写代码来解决他与 13 岁妹妹一起玩的一款棋盘游戏。 “我通过一局又一局的计算来得出最优走法,并向我妹妹证明,在我们俩自己察觉到之前,她早已输了,”Farina 说,并补充说他妹妹对这个新系统并不那么着迷。 如今,Farina 是麻省理工学院(MIT)电气工程与计算机科学系(EECS)的助理教授,也是信息与设计系统实验室(LIDS)的首席研究员。他将博弈论的概念与机器学习、优化和统计学等工具相结合,以推进决策的理论基础和算法基础。 Farina 本科入读米兰理工大学(Politecnico di Milano),学习自动化与控制工程。然而,随着时间的推移,他意识到真正激发他兴趣的并非“仅仅应用已知技术,而是理解并扩展这些技术的基础,”他说,“我逐渐越来越多地转向理论研究,同时仍然非常关注展示这些理论的具体应用。” Farina 在米兰理工大学的导师、计算机科学与工程教授兼研究员 Nicola Gatti 向 Farina 介绍了计算博弈论中的研究问题,并鼓励他申请博士学位。当时,作为直系亲属中第一个获得大学学位的人,且生活在博士学位制度不同的意大利,Farina 说他甚至不知道什么是博士学位。 尽管如此,在获得本科学位一个月后,Farina 开始在卡内基梅隆大学攻读计算机科学博士学位。在那里,他的研究和论文获得了荣誉,他还获得了 Facebook 经济学与计算奖学金。 在完成博士学业之际,Farina 曾在 Meta 的基础 AI 研究实验室工作了一年,担任研究科学家。他的主要项目之一是协助开发 Cicero,这是一款能够在涉及结盟、谈判以及识破其他玩家虚张声势的游戏中击败人类玩家的 AI。 Farina 说:“在构建 Cicero 时,我们设计它只有在符合其自身利益的情况下才同意结盟,并且它能判断玩家是否可能在撒谎,因为如果按照他们提出的方案行事,将违背他们自身的激励因素。” 2022 年《麻省理工科技评论》(MIT Technology Review)的一篇文章称,Cicero 代表了向着能够解决需要妥协的复杂问题的 AI 迈进的重要一步。 在 Meta 工作一年后,Farina 加入了 MIT 教职团队。2025 年,他获得了美国国家科学基金会(NSF)的 CAREER 奖。他的工作基于博弈论及其描述不同方具有不同目标时发生情况的数学语言,并量化“均衡”状态——即无人有理由改变策略的状态——旨在简化那些计算如此均衡可能需要数十亿年的大规模、复杂的现实世界场景。 “我研究如何能够利用优化和算法有效地找到这些稳定点,”他说,“我们的工作试图为理论的数学基础带来新的见解,更好地控制和预测这些复杂的动态系统,并利用这些思想来计算大型多智能体交互的良好解决方案。” Farina 对“不完全信息”场景特别感兴趣,这意味着某些代理(agent)拥有其他参与者未知的信息。在这种情况下,信息具有价值,参与者必须战略性地利用他们所掌握的信息,以免暴露信息从而降低其价值。日常生活中一个典型的例子是扑克游戏,玩家通过虚张声势来掩盖关于其手牌的信息。 据 Farina 称,“我们现在生活在一个机器比人类更擅长虚张声势的世界中。” 一种充满“大量不完全信息”的情况将 Farina 带回到了他最初的棋盘游戏经历。Stratego 是一款军事策略游戏,曾激发耗资数百万美元的研究努力,以生产能够击败人类玩家的系统。该游戏需要复杂的风险计算和误导(或虚张声势),Farina 表示,它可能是唯一一种主要努力未能实现超人水平的古典游戏。 凭借成本低于 10,000 美元(而非数百万美元)的新算法和训练,Farina 及其研究团队击败了史上最佳玩家——取得了 15 胜、4 平、1 负的成绩。Farina 表示,能够如此经济地取得这样的结果令他感到非常兴奋,他希望“这些新技术将被纳入未来的流程中”。 “我们见证了构建能够进行策略推理并在巨大的行动空间或不完全信息的情况下做出合理决策的算法的持续进步。对于看到这些算法被纳入我们周围发生的更广泛的人工智能革命,我感到非常兴奋。”

相似文章

Stratagem:通过轨迹调制博弈自博弈学习可迁移推理

Hugging Face Daily Papers

# 论文页面 - Stratagem:通过轨迹调制博弈自博弈学习可迁移推理 来源:[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者:,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励,鼓励抽象、跨领域模式而非博弈专用启发式,从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。

为 AGI 及其未来做好准备

OpenAI Blog

OpenAI 阐述了为 AGI 做准备的战略,强调通过真实世界反馈循环进行渐进式部署,随着系统接近 AGI 能力而提高谨慎程度,以及开发更好的对齐技术以确保 AI 系统保持可控和安全。

AI教父:如何打造安全的超级智能AI

Reddit r/singularity

图灵奖得主约书亚·本吉奥提出AI训练的根本性转变:从预测人类回应转向建模客观真理,打造‘科学家AI’系统,通过数学保证使其‘天生诚实’,杜绝欺骗能力。

重新思考我们如何衡量AI智能

Google DeepMind Blog

Google DeepMind和Kaggle推出了Kaggle Game Arena,一个开源的AI基准测试平台,让大型语言模型在策略游戏中进行对抗,从而提供动态的、可验证的能力评估。该平台通过提供明确的胜负条件和清晰的性能信号,克服了传统基准测试的局限性。