MuZero:软件1.0的终结者?
摘要
本文探讨了谷歌 DeepMind 的 MuZero 算法作为“软件2.0”的典型案例,认为尽管深度学习在性能上超越了传统软件,但它仍然依赖于博弈树搜索等经典计算技术。
<p><em>作者:<a href="https://ashwinreddy.github.io/">Ashwin Reddy</a></em></p><p>深度学习与主流软件的差异如此巨大,以至于 Andrej Karpathy 将其称为<strong><a href="https://karpathy.medium.com/software-2-0-a64152b37c35">软件2.0</a></strong>。这一名称突显了深度学习在蛋白质折叠预测等复杂领域中的优越性。但我想论证的是,尽管深度学习超越了软件1.0,它仍然依赖于经典技术。</p><p>由谷歌 DeepMind 开发的 MuZero 算法,是软件2.0进步的一个绝佳范例。让我们看看它的应用:</p><ul><li><p>MuZero 的前身 AlphaGo 在五番围棋比赛中击败了冠军李昌镐(Silver, 2016)。</p></li><li><p>YouTube 发现使用 MuZero <a href="https://deepmind.com/blog/article/MuZeros-first-step-from-research-into-the-real-world">压缩视频</a> 效果显著。</p></li><li><p>特斯拉的自动驾驶汽车使用 MuZero 在现实世界中进行导航。</p></li></ul><p>然而,MuZero 和 AlphaGo 本质上是国际象棋算法的延伸。阿兰·图灵(Alan Turing)和克劳德·香农(Claude Shannon)等计算先驱曾研究过这类国际象棋算法,这些算法至今在根本上保持不变。大体上,它们遵循以下流程:</p><ol><li><p>考虑你可以走的所有步骤。对于每一步,确定游戏可能在哪里结束。具体而言,构建一个博弈树。</p></li><li><p>选择对计算机得分最高的走法。为此,需要使用启发式方法,为每种象棋局面分配一个分数。启发式方法可能来自人类专家,或者如后文所述,从经验中学习而来。</p></li></ol><div class="captioned-image-container"><figure><a class="image-link image2" target="_blank" href="https://substackcdn.com/image/fetch/$s_!fAWK!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!fAWK!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 424w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 848w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1272w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!fAWK!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png" width="539" height="219" data-attrs="{"src":"https://substack-post-media.s3.amazonaws.com/public/images/eeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png","srcNoWatermark":null,"fullscreen":null,"imageSize":null,"height":219,"width":539,"resizeWidth":null,"bytes":null,"alt":null,"title":null,"type":null,"href":null,"belowTheFold":false,"topImage":true,"internalRedirect":null,"isProcessing":false,"align":null,"offset":false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!fAWK!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 424w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 848w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1272w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1456w" sizes="100vw" fetchpriority="high"></picture><div></div></div></a><figcaption class="image-caption">博弈树,其中边代表动作,因此子节点是父节点的潜在下一状态。叶节点是终止状态,即赢、平或输。(<a href="http://garabedyan.files.wordpress.com/2011/04/chess-shannon-type-a.png">来源</a>)</figcaption></figure></div><p>1997年,DeepBlue 采用这种方法击败了世界国际象棋冠军加里·卡斯帕罗夫。由于围棋和国际象棋相似,你可能会认为这种算法也能在围棋中表现得足够好。但存在两个问题。</p><ol><li><p>围棋的棋盘更大,且允许的步数远多于国际象棋。因此,博弈树更大,朴素的树搜索在实际中变得太慢。</p></li><li><p>手工设计的启发式方法无法达到人类水平的围棋表现。</p></li></ol><p>在软件2.0的理想世界中,我们将设计一个单一的网络,预测给定围棋棋局的最优走法。该网络学习一个以恒定时间运行的启发式方法,从而解决上述两个问题。收集或生成数据集,训练模型,搞定——问题解决了。</p><p>如果事情这么简单,我们可能会期待 MuZero 仅仅是一种新颖的网络架构。相反,DeepMind 保留了树结构。MuZero 并没有对博弈树进行穷举搜索,而是使用蒙特卡洛树搜索(MCTS)——该技术最早由 Brugman (1993) 在围棋程序中使用——来聚焦于最有希望的走法。深度学习驱动了启发式方法,在这种情况下,它是一个预测函数 <em>f</em>。<a class="footnote-anchor" data-component-name="FootnoteAnchorToDOM" id="footnote-anchor-1" href="#footnote-1" target="_self">1</a></p><div class="latex-rendered" data-attrs="{"persistentExpression":"\\text{policy}, \\text{value} = f(\\text{state}) \\tag{Prediction Function}","id":"JDFKCFGKCW"}" data-component-name="LatexBlockToDOM"></div><p>价值(value)衡量状态的好坏程度,而策略(policy)建议下一步应采取的行动。</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!zKJQ!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!zKJQ!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg 424w, https://substackcdn.com/image/fetch/$s_!zKJQ!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg 848w, https://substackcdn.com/image/fetch/$s_!zKJQ!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg 1272w, https://
相似文章
@GoogleDeepMind:算法几乎存在于生活的方方面面,从自然世界的物理规律到规划航运路线……
Google DeepMind 强调其基于 Gemini 的编码智能体 AlphaEvolve 的广泛影响,展示了在基因组学、电网优化、地球科学和量子物理研究方面的重大进展。
Claude Mythos、Deepseek v4、HappyHorse、Meta 新 AI、实时视频游戏:AI 新闻
Anthropic 公布被雪藏的 Claude Mythos 模型,可自主挖掘数千个 0-day;ZAI 开源 1.5 TB GLM-5.1,登顶开放权重基准;阿里巴巴未发布的 HappyHorse 视频模型冲上公开榜第一;Deepseek 放出“专家模式”v4 预览。
[Google DeepMind] AI联合数学家也在困难问题求解基准测试中取得了最先进的结果,包括在FrontierMath Tier 4上获得48%的得分,这是所有被评估AI系统的新最高分。
Google DeepMind的AI联合数学家取得了困难问题求解基准测试中的最先进结果,在FrontierMath Tier 4上获得48%的得分,是所有被评估AI系统中的最高分。
推出 Deep Research 与 Deep Research Max
Google DeepMind 发布由 Gemini 3.1 Pro 驱动的自主研究智能体 Deep Research 与 Deep Research Max,支持 MCP,面向企业工作流。
人与机器博弈:理清战略推理以推动AI发展
MIT教授Gabriele Farina通过将博弈论与机器学习相结合,推动AI决策能力的发展,这建立在他早期参与开发外交AI Cicero的工作基础之上。