Building AlphaGo from scratch – Eric Jang

Reddit r/singularity 2026/05/15 16:49 工具

alpha-go monte-carlo-tree-search deep-learning go open-source ai-research

摘要

Eric Jang 从头重建了 AlphaGo 并详细解释了蒙特卡洛树搜索和深度学习在围棋中的应用，展示了当前低成本复现强力围棋AI的可行性。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/15 17:08

TL;DR: Eric Jang 在休假时从头重建了 AlphaGo，用蒙特卡洛树搜索和深度学习让围棋搜索变得可行，并解释了底层搜索算法、动作选择策略以及当前低成本复现的可能性。 ## 为什么重做 AlphaGo？ Eric Jang（前 1X Technologies AI 副总裁，前 Google DeepMind Robotics 高级研究科学家）在休假时选择重建 AlphaGo，而不是去海滩。AlphaGo 和围棋 AI 是他最初进入这个领域的引路人。2014-2016 年，看到 AI 通过深度学习解决围棋这个长期被认为不可搜索的问题，对他来说是震撼性的。他一直好奇：一个十层的神经网络如何能模拟游戏树中如此深度的计算？ 2020 年，David Wu 在 Jane Street 开发了 KataGo，将训练强力围棋机器人的计算量降低了 40 倍。得益于此，之前 DeepMind 需要一个团队和数百万美元才能完成的事情，现在只需几千美元租用计算资源就能做到。 ## 围棋怎么玩？围棋目标是在棋盘上放置黑白棋子，尽可能多地占据地盘。黑棋先走。吃掉对手棋子的方式：如果一个棋子的四个正交邻居都被包围，它就死掉（失去“氧气”）。计算机围棋采用 **Tromp-Taylor 规则**，完全无歧义。例如，人类规则不允许自杀落子，但 Tromp-Taylor 规则允许，落子后立即被判死，结果相同。游戏在双方连续 pass 或认输时结束。 ### 计分差异 - **人类规则（如中国规则）**：棋手对局结束后协商确认领地，存在歧义。 - **Tromp-Taylor 计分**：完全算法化。首先数控制了多少棋子；然后数空交叉点中未被对方棋子接触的点。但有些空点同时与双方棋子相邻，Tromp-Taylor 会把这些点判给双方，导致与人类直觉不同的结果。例如，一个被黑棋包围但白棋仍有少量子力的形状，人类认为白棋已经输掉，但 Tromp-Taylor 可能判白棋得到分数。 ## 破解围棋：从暴力搜索到蒙特卡洛树搜索围棋分支因子巨大：19×19 棋盘，第一步约 361 种选择，整局约 250-300 步。朴素搜索树大小约为 361^300，远超宇宙原子数。 AlphaGo 使用 **蒙特卡洛树搜索 (MCTS)** 使问题可行。核心是维护一棵树，节点代表状态（棋盘配置），边代表动作。搜索交互式地展开树，评估哪些叶子值得深入探索。 ### 数据结构每个节点存储： - **访问次数 N(s,a)**：从父节点通过动作 a 到达该节点的次数。 - **平均动作价值 Q(s,a)**：从该节点开始，所有已模拟棋局中获胜的比例。 - **选取动作的概率 P(s,a)**（稍后引入）。 - **子节点字典**：指向更多节点的引用，形成链表式树结构。 ### 动作选择：UCB 与 PUCT 在树搜索中，选择哪个子节点由评分标准决定。早期博弈论使用 **UCB1**： ``` 选择 argmax [ Q(s,a) + sqrt(ln N_parent / N(s,a)) ] ``` 其中 Q 是“利用”部分（平均获胜概率），后一项是“探索”项，鼓励尝试访问次数少的动作。 AlphaGo 使用改进版 **PUCT (Predicted Upper Confidence with Trees)**： ``` 选择 argmax [ Q(s,a) + c * P(s,a) * sqrt(N_parent) / (1 + N(s,a)) ] ``` c 是探索常数，P(s,a) 来自神经网络对动作的初始概率估计，帮助引导搜索。 ## 为何当前更容易复现 KataGo 将训练计算需求降低了 40 倍，加上如今 LLM 能辅助编写 MCTS 实现（Eric 现场用 Claude 4.6 生成合理代码），使得个人开发者可以用数千美元租用 GPU 从头训练强力围棋 AI。这也是 Eric 在休假时能完成这个项目的原因——技术门槛和成本已大幅下降。 ## 对话中的要点 - 棋手有时会故意让对手吃子以获得更大优势（输战役赢战争）。 - 合理的中盘判断需要人类“价值函数”达成共识，计算机则靠算法。 - 围棋是完全信息确定博弈，理论上可穷举最优策略，但搜索爆炸迫使使用神经网络辅助。 --- Source: [Building AlphaGo from scratch – Eric Jang](https://youtu.be/X_ZVSPcZhtw?si=TnOB7lF2rbpYpLdn)

相似文章

@dwarkesh_sp: 与 @ericjang11 的新黑板讲座：他演示了如何用现代AI工具从头构建AlphaGo。一些…

X AI KOLs Timeline

Eric Jang的黑板讲座逐步讲解了如何使用现代AI工具从零构建AlphaGo，涵盖了强化学习、蒙特卡洛树搜索、自我对弈，并与LLM训练相联系，同时讨论了自动化AI研究。

10 years of AlphaGo: The turning point for AI | Thore Graepel & Pushmeet Kohli

YouTube AI Channels

本文回顾了AlphaGo在2016年击败李世石的历史，分析了其结合深度学习与搜索的技术原理，以及这一事件对AI发展的深远影响。

从围棋到生物学及更远：AlphaGo 影响的十年

Google DeepMind Blog

DeepMind 回顾 AlphaGo 诞生十周年，强调其在开启现代 AI 时代中的关键作用，以及它对科学研究和通用人工智能（AGI）探索的深远影响。

@0xLogicrw: OpenAI 后训练核心成员翁家翌（Jiayi Weng）以个人名义提出了一种名为「启发式学习」的强化学习新范式，并开源了全部实验代码。他用 Codex（GPT-5.4）反复玩 Atari 打砖块游戏，但 GPT-5.4 自始至终没有被重…

X AI KOLs Timeline

前OpenAI研究员翁家翌提出“启发式学习”新范式，利用大模型生成并迭代修改Python代码解决强化学习任务，将知识存储在可解释的代码中而非神经网络参数，有效避免灾难性遗忘，目前已在Atari和MuJoCo基准上取得优异成果并开源代码。

@berryxia: Moonshot AI创始人杨植麟最近放出了一个40分钟视频。这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者，前Google Brain和Meta研究员，坐在镜头前平静拆解了Kimi K2…

X AI KOLs Timeline

Moonshot AI创始人杨植麟发布40分钟视频，详细拆解Kimi K2模型训练过程，仅花费460万美元，并在8模型编程大战中击败GPT-5.5等夺得第一，展现小团队通过架构优化颠覆传统堆算力模式。

相似文章

@dwarkesh_sp: 与 @ericjang11 的新黑板讲座：他演示了如何用现代AI工具从头构建AlphaGo。一些…

10 years of AlphaGo: The turning point for AI | Thore Graepel & Pushmeet Kohli

从围棋到生物学及更远：AlphaGo 影响的十年

@0xLogicrw: OpenAI 后训练核心成员翁家翌（Jiayi Weng）以个人名义提出了一种名为「启发式学习」的强化学习新范式，并开源了全部实验代码。他用 Codex（GPT-5.4）反复玩 Atari 打砖块游戏，但 GPT-5.4 自始至终没有被重…

@berryxia: Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者，前Google Brain和Meta研究员，坐在镜头前平静拆解了Kimi K2…

提交意见反馈

@berryxia: Moonshot AI创始人杨植麟最近放出了一个40分钟视频。这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者，前Google Brain和Meta研究员，坐在镜头前平静拆解了Kimi K2…