MuZero：软件1.0的终结者？

ML at Berkeley 2022/09/06 12:30 新闻

muzero deepmind software-2-0 reinforcement-learning ai-history deep-learning

摘要

本文探讨了谷歌 DeepMind 的 MuZero 算法作为“软件2.0”的典型案例，认为尽管深度学习在性能上超越了传统软件，但它仍然依赖于博弈树搜索等经典计算技术。

<p><em>作者：<a href="https://ashwinreddy.github.io/">Ashwin Reddy</a></em></p><p>深度学习与主流软件的差异如此巨大，以至于 Andrej Karpathy 将其称为<strong><a href="https://karpathy.medium.com/software-2-0-a64152b37c35">软件2.0</a></strong>。这一名称突显了深度学习在蛋白质折叠预测等复杂领域中的优越性。但我想论证的是，尽管深度学习超越了软件1.0，它仍然依赖于经典技术。</p><p>由谷歌 DeepMind 开发的 MuZero 算法，是软件2.0进步的一个绝佳范例。让我们看看它的应用：</p><ul><li><p>MuZero 的前身 AlphaGo 在五番围棋比赛中击败了冠军李昌镐（Silver, 2016）。</p></li><li><p>YouTube 发现使用 MuZero <a href="https://deepmind.com/blog/article/MuZeros-first-step-from-research-into-the-real-world">压缩视频</a> 效果显著。</p></li><li><p>特斯拉的自动驾驶汽车使用 MuZero 在现实世界中进行导航。</p></li></ul><p>然而，MuZero 和 AlphaGo 本质上是国际象棋算法的延伸。阿兰·图灵（Alan Turing）和克劳德·香农（Claude Shannon）等计算先驱曾研究过这类国际象棋算法，这些算法至今在根本上保持不变。大体上，它们遵循以下流程：</p><ol><li><p>考虑你可以走的所有步骤。对于每一步，确定游戏可能在哪里结束。具体而言，构建一个博弈树。</p></li><li><p>选择对计算机得分最高的走法。为此，需要使用启发式方法，为每种象棋局面分配一个分数。启发式方法可能来自人类专家，或者如后文所述，从经验中学习而来。</p></li></ol><div class="captioned-image-container"><figure><a class="image-link image2" target="_blank" href="https://substackcdn.com/image/fetch/$s_!fAWK!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!fAWK!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 424w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 848w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1272w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!fAWK!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png" width="539" height="219" data-attrs="{"src":"https://substack-post-media.s3.amazonaws.com/public/images/eeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png","srcNoWatermark":null,"fullscreen":null,"imageSize":null,"height":219,"width":539,"resizeWidth":null,"bytes":null,"alt":null,"title":null,"type":null,"href":null,"belowTheFold":false,"topImage":true,"internalRedirect":null,"isProcessing":false,"align":null,"offset":false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!fAWK!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 424w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 848w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1272w, https://substackcdn.com/image/fetch/$s_!fAWK!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feeb2eb2e-0d6f-4413-8b09-79b3e00917dc_539x219.png 1456w" sizes="100vw" fetchpriority="high"></picture><div></div></div></a><figcaption class="image-caption">博弈树，其中边代表动作，因此子节点是父节点的潜在下一状态。叶节点是终止状态，即赢、平或输。（<a href="http://garabedyan.files.wordpress.com/2011/04/chess-shannon-type-a.png">来源</a>）</figcaption></figure></div><p>1997年，DeepBlue 采用这种方法击败了世界国际象棋冠军加里·卡斯帕罗夫。由于围棋和国际象棋相似，你可能会认为这种算法也能在围棋中表现得足够好。但存在两个问题。</p><ol><li><p>围棋的棋盘更大，且允许的步数远多于国际象棋。因此，博弈树更大，朴素的树搜索在实际中变得太慢。</p></li><li><p>手工设计的启发式方法无法达到人类水平的围棋表现。</p></li></ol><p>在软件2.0的理想世界中，我们将设计一个单一的网络，预测给定围棋棋局的最优走法。该网络学习一个以恒定时间运行的启发式方法，从而解决上述两个问题。收集或生成数据集，训练模型，搞定——问题解决了。</p><p>如果事情这么简单，我们可能会期待 MuZero 仅仅是一种新颖的网络架构。相反，DeepMind 保留了树结构。MuZero 并没有对博弈树进行穷举搜索，而是使用蒙特卡洛树搜索（MCTS）——该技术最早由 Brugman (1993) 在围棋程序中使用——来聚焦于最有希望的走法。深度学习驱动了启发式方法，在这种情况下，它是一个预测函数 <em>f</em>。<a class="footnote-anchor" data-component-name="FootnoteAnchorToDOM" id="footnote-anchor-1" href="#footnote-1" target="_self">1</a></p><div class="latex-rendered" data-attrs="{"persistentExpression":"\\text{policy}, \\text{value} = f(\\text{state}) \\tag{Prediction Function}","id":"JDFKCFGKCW"}" data-component-name="LatexBlockToDOM"></div><p>价值（value）衡量状态的好坏程度，而策略（policy）建议下一步应采取的行动。</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!zKJQ!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!zKJQ!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg 424w, https://substackcdn.com/image/fetch/$s_!zKJQ!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg 848w, https://substackcdn.com/image/fetch/$s_!zKJQ!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8f5ff759-1817-4997-bcd2-4ded39622bdc_3360x2100.jpeg 1272w, https://

查看原文

MuZero：软件1.0的终结者？

相似文章

@GoogleDeepMind：算法几乎存在于生活的方方面面，从自然世界的物理规律到规划航运路线……

Claude Mythos、Deepseek v4、HappyHorse、Meta 新 AI、实时视频游戏：AI 新闻

[Google DeepMind] AI联合数学家也在困难问题求解基准测试中取得了最先进的结果，包括在FrontierMath Tier 4上获得48%的得分，这是所有被评估AI系统的新最高分。

推出 Deep Research 与 Deep Research Max

人与机器博弈：理清战略推理以推动AI发展

提交意见反馈