MuZero:软件1.0的终结者?

ML at Berkeley 新闻

摘要

本文探讨了谷歌 DeepMind 的 MuZero 算法作为“软件2.0”的典型案例,认为尽管深度学习在性能上超越了传统软件,但它仍然依赖于博弈树搜索等经典计算技术。

<p><em>作者:<a href="https://ashwinreddy.github.io/">Ashwin Reddy</a></em></p><p>深度学习与主流软件的差异如此巨大,以至于 Andrej Karpathy 将其称为<strong><a href="https://karpathy.medium.com/software-2-0-a64152b37c35">软件2.0</a></strong>。这一名称突显了深度学习在蛋白质折叠预测等复杂领域中的优越性。但我想论证的是,尽管深度学习超越了软件1.0,它仍然依赖于经典技术。</p><p>由谷歌 DeepMind 开发的 MuZero 算法,是软件2.0进步的一个绝佳范例。让我们看看它的应用:</p><ul><li><p>MuZero 的前身 AlphaGo 在五番围棋比赛中击败了冠军李昌镐(Silver, 2016)。</p></li><li><p>YouTube 发现使用 MuZero <a href="https://deepmind.com/blog/article/MuZeros-first-step-from-research-into-the-real-world">压缩视频</a> 效果显著。</p></li><li><p>特斯拉的自动驾驶汽车使用 MuZero 在现实世界中进行导航。</p></li></ul><p>然而,MuZero 和 AlphaGo 本质上是国际象棋算法的延伸。阿兰·图灵(Alan Turing)和克劳德·香农(Claude Shannon)等计算先驱曾研究过这类国际象棋算法,这些算法至今在根本上保持不变。大体上,它们遵循以下流程:</p><ol><li><p>考虑你可以走的所有步骤。对于每一步,确定游戏可能在哪里结束。具体而言,构建一个博弈树。</p></li><li><p>选择对计算机得分最高的走法。为此,需要使用启发式方法,为每种象棋局面分配一个分数。启发式方法可能来自人类专家,或者如后文所述,从经验中学习而来。</p></li></ol><div class="captioned-image-container"><figure><a class="image-link image2" target="_blank" href="https://substackcdn.com/image/fetch/$s_!fAWK!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!fAWK!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 424w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 848w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1272w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!fAWK!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png" width="539" height="219" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/eeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:219,&quot;width&quot;:539,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:null,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:null,&quot;href&quot;:null,&quot;belowTheFold&quot;:false,&quot;topImage&quot;:true,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!fAWK!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 424w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 848w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1272w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1456w" sizes="100vw" fetchpriority="high"></picture><div></div></div></a><figcaption class="image-caption">博弈树,其中边代表动作,因此子节点是父节点的潜在下一状态。叶节点是终止状态,即赢、平或输。(<a href="http://garabedyan.files.wordpress.com/2011/04/chess-shannon-type-a.png">来源</a>)</figcaption></figure></div><p>1997年,DeepBlue 采用这种方法击败了世界国际象棋冠军加里·卡斯帕罗夫。由于围棋和国际象棋相似,你可能会认为这种算法也能在围棋中表现得足够好。但存在两个问题。</p><ol><li><p>围棋的棋盘更大,且允许的步数远多于国际象棋。因此,博弈树更大,朴素的树搜索在实际中变得太慢。</p></li><li><p>手工设计的启发式方法无法达到人类水平的围棋表现。</p></li></ol><p>在软件2.0的理想世界中,我们将设计一个单一的网络,预测给定围棋棋局的最优走法。该网络学习一个以恒定时间运行的启发式方法,从而解决上述两个问题。收集或生成数据集,训练模型,搞定——问题解决了。</p><p>如果事情这么简单,我们可能会期待 MuZero 仅仅是一种新颖的网络架构。相反,DeepMind 保留了树结构。MuZero 并没有对博弈树进行穷举搜索,而是使用蒙特卡洛树搜索(MCTS)——该技术最早由 Brugman (1993) 在围棋程序中使用——来聚焦于最有希望的走法。深度学习驱动了启发式方法,在这种情况下,它是一个预测函数 <em>f</em>。<a class="footnote-anchor" data-component-name="FootnoteAnchorToDOM" id="footnote-anchor-1" href="#footnote-1" target="_self">1</a></p><div class="latex-rendered" data-attrs="{&quot;persistentExpression&quot;:&quot;\\text{policy}, \\text{value} = f(\\text{state}) \\tag{Prediction Function}&quot;,&quot;id&quot;:&quot;JDFKCFGKCW&quot;}" data-component-name="LatexBlockToDOM"></div><p>价值(value)衡量状态的好坏程度,而策略(policy)建议下一步应采取的行动。</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!zKJQ!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!zKJQ!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg 424w, https://substackcdn.com/image/fetch/$s_!zKJQ!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg 848w, https://substackcdn.com/image/fetch/$s_!zKJQ!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg 1272w, https://
查看原文

相似文章

推出 Deep Research 与 Deep Research Max

Reddit r/singularity

Google DeepMind 发布由 Gemini 3.1 Pro 驱动的自主研究智能体 Deep Research 与 Deep Research Max,支持 MCP,面向企业工作流。