@dwarkesh_sp: 与 @ericjang11 的新黑板讲座:他演示了如何用现代AI工具从头构建AlphaGo。一些…
摘要
Eric Jang的黑板讲座逐步讲解了如何使用现代AI工具从零构建AlphaGo,涵盖了强化学习、蒙特卡洛树搜索、自我对弈,并与LLM训练相联系,同时讨论了自动化AI研究。
与 @ericjang11 的新黑板讲座。他演示了如何用现代AI工具从头构建AlphaGo。有时,通过回顾过去能更好地理解未来。AlphaGo 仍然是智能基本要素(搜索、从经验中学习、自我对弈)最清晰的工作示例。你必须回到2017年,才能洞察未来更通用的AI可能如何学习。在他解释了AlphaGo的工作原理之后,我们有了讨论强化学习在LLM中如何工作以及如何更好地工作的背景——朴素的策略梯度强化学习必须从轨迹中数十万个token中找出哪些真正让你得到了正确答案,而AlphaGo的MCTS每一步都建议一个严格更好的动作,从而提供了一个绕过信用分配问题的训练目标。人类的学习方式显然更接近后者。Eric还在他的项目上启动了一个自动研究循环。讨论AI研究的哪些部分LLM已经可以很好地自动化(实施和运行实验、优化超参数)以及哪些部分仍难以处理(选择下一步要研究的问题、摆脱研究死胡同),很有启发性。这对于最近关于何时应期待智能爆炸以及从内部看会是什么样子的讨论也提供了信息。时间戳:0:00:00 – 围棋基础 0:08:06 – 蒙特卡洛树搜索 0:31:53 – 神经网络的作用 1:00:22 – 自我对弈 1:25:27 – 替代强化学习方法 1:45:36 – 为什么MCTS不适用于LLM 2:00:58 – 离线策略训练 2:11:51 – 强化学习的信息效率比你想象的还要低 2:22:05 – 自动化AI研究人员
相似文章
@Michaelzsguo: 这是我最近看到的关于强化学习基础,以及它和现代 AI 关系的最好深度讨论之一。 Eric Jang 和 Dwarkesh 把一个看起来有点复古的练习,也就是用今天的工具重新构建 AlphaGo,变成了一堂非常清晰的大师课:为什么“搜索 +…
A detailed discussion on reinforcement learning and its connection to modern AI, using the reconstruction of AlphaGo with modern tools as a clear example of search and self-play. Key takeaways include neural network amortization of search, credit assignment challenges in LLMs vs AlphaGo, and implications for automated research.
@ericjang11: 在过去的几个月里,我一直在从零实现AlphaGo,这是2016年的一项AI突破,它启发了我……
Eric Jang发布了AutoGo,一个从零实现AlphaGo的教程,包含代码和一个可对弈的机器人,展示了前沿能力现在可以低成本复现。
Building AlphaGo from scratch – Eric Jang
Eric Jang 从头重建了 AlphaGo 并详细解释了蒙特卡洛树搜索和深度学习在围棋中的应用,展示了当前低成本复现强力围棋AI的可行性。
@enoch4306: 你绝不能错过!! 用AI从零开始构建AlphaGo教程。 中文字幕 http://pan.quark.cn/s/06bd1030d137 .
推荐一个从零开始构建AlphaGo的中文字幕教程,适合学习AI和强化学习。
@ickma2311: David Silver RL Course (Lecture 8): 整合学习与规划 AlphaGo是整合学习的优美示例…
David Silver强化学习课程第8讲关于整合学习与规划的摘要,涵盖基于模型的强化学习以及AlphaGo使用策略网络和价值网络结合蒙特卡洛树搜索的方法。