Building AlphaGo from scratch – Eric Jang

Reddit r/singularity 工具

摘要

Eric Jang 从头重建了 AlphaGo 并详细解释了蒙特卡洛树搜索和深度学习在围棋中的应用,展示了当前低成本复现强力围棋AI的可行性。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/15 17:08

TL;DR: Eric Jang 在休假时从头重建了 AlphaGo,用蒙特卡洛树搜索和深度学习让围棋搜索变得可行,并解释了底层搜索算法、动作选择策略以及当前低成本复现的可能性。 ## 为什么重做 AlphaGo? Eric Jang(前 1X Technologies AI 副总裁,前 Google DeepMind Robotics 高级研究科学家)在休假时选择重建 AlphaGo,而不是去海滩。AlphaGo 和围棋 AI 是他最初进入这个领域的引路人。2014-2016 年,看到 AI 通过深度学习解决围棋这个长期被认为不可搜索的问题,对他来说是震撼性的。他一直好奇:一个十层的神经网络如何能模拟游戏树中如此深度的计算? 2020 年,David Wu 在 Jane Street 开发了 KataGo,将训练强力围棋机器人的计算量降低了 40 倍。得益于此,之前 DeepMind 需要一个团队和数百万美元才能完成的事情,现在只需几千美元租用计算资源就能做到。 ## 围棋怎么玩? 围棋目标是在棋盘上放置黑白棋子,尽可能多地占据地盘。黑棋先走。吃掉对手棋子的方式:如果一个棋子的四个正交邻居都被包围,它就死掉(失去“氧气”)。 计算机围棋采用 **Tromp-Taylor 规则**,完全无歧义。例如,人类规则不允许自杀落子,但 Tromp-Taylor 规则允许,落子后立即被判死,结果相同。 游戏在双方连续 pass 或认输时结束。 ### 计分差异 - **人类规则(如中国规则)**:棋手对局结束后协商确认领地,存在歧义。 - **Tromp-Taylor 计分**:完全算法化。首先数控制了多少棋子;然后数空交叉点中未被对方棋子接触的点。但有些空点同时与双方棋子相邻,Tromp-Taylor 会把这些点判给双方,导致与人类直觉不同的结果。例如,一个被黑棋包围但白棋仍有少量子力的形状,人类认为白棋已经输掉,但 Tromp-Taylor 可能判白棋得到分数。 ## 破解围棋:从暴力搜索到蒙特卡洛树搜索 围棋分支因子巨大:19×19 棋盘,第一步约 361 种选择,整局约 250-300 步。朴素搜索树大小约为 361^300,远超宇宙原子数。 AlphaGo 使用 **蒙特卡洛树搜索 (MCTS)** 使问题可行。核心是维护一棵树,节点代表状态(棋盘配置),边代表动作。搜索交互式地展开树,评估哪些叶子值得深入探索。 ### 数据结构 每个节点存储: - **访问次数 N(s,a)**:从父节点通过动作 a 到达该节点的次数。 - **平均动作价值 Q(s,a)**:从该节点开始,所有已模拟棋局中获胜的比例。 - **选取动作的概率 P(s,a)**(稍后引入)。 - **子节点字典**:指向更多节点的引用,形成链表式树结构。 ### 动作选择:UCB 与 PUCT 在树搜索中,选择哪个子节点由评分标准决定。早期博弈论使用 **UCB1**: ``` 选择 argmax [ Q(s,a) + sqrt(ln N_parent / N(s,a)) ] ``` 其中 Q 是“利用”部分(平均获胜概率),后一项是“探索”项,鼓励尝试访问次数少的动作。 AlphaGo 使用改进版 **PUCT (Predicted Upper Confidence with Trees)**: ``` 选择 argmax [ Q(s,a) + c * P(s,a) * sqrt(N_parent) / (1 + N(s,a)) ] ``` c 是探索常数,P(s,a) 来自神经网络对动作的初始概率估计,帮助引导搜索。 ## 为何当前更容易复现 KataGo 将训练计算需求降低了 40 倍,加上如今 LLM 能辅助编写 MCTS 实现(Eric 现场用 Claude 4.6 生成合理代码),使得个人开发者可以用数千美元租用 GPU 从头训练强力围棋 AI。 这也是 Eric 在休假时能完成这个项目的原因——技术门槛和成本已大幅下降。 ## 对话中的要点 - 棋手有时会故意让对手吃子以获得更大优势(输战役赢战争)。 - 合理的中盘判断需要人类“价值函数”达成共识,计算机则靠算法。 - 围棋是完全信息确定博弈,理论上可穷举最优策略,但搜索爆炸迫使使用神经网络辅助。 --- Source: [Building AlphaGo from scratch – Eric Jang](https://youtu.be/X_ZVSPcZhtw?si=TnOB7lF2rbpYpLdn)

相似文章

@0xLogicrw: OpenAI 后训练核心成员翁家翌(Jiayi Weng)以个人名义提出了一种名为「启发式学习」的强化学习新范式,并开源了全部实验代码。他用 Codex(GPT-5.4)反复玩 Atari 打砖块游戏,但 GPT-5.4 自始至终没有被重…

X AI KOLs Timeline

前OpenAI研究员翁家翌提出“启发式学习”新范式,利用大模型生成并迭代修改Python代码解决强化学习任务,将知识存储在可解释的代码中而非神经网络参数,有效避免灾难性遗忘,目前已在Atari和MuJoCo基准上取得优异成果并开源代码。

@berryxia: Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者,前Google Brain和Meta研究员,坐在镜头前平静拆解了Kimi K2…

X AI KOLs Timeline

Moonshot AI创始人杨植麟发布40分钟视频,详细拆解Kimi K2模型训练过程,仅花费460万美元,并在8模型编程大战中击败GPT-5.5等夺得第一,展现小团队通过架构优化颠覆传统堆算力模式。