@dwarkesh_sp: 与 @ericjang11 的新黑板讲座:他演示了如何用现代AI工具从头构建AlphaGo。一些…

X AI KOLs Timeline 新闻

摘要

Eric Jang的黑板讲座逐步讲解了如何使用现代AI工具从零构建AlphaGo,涵盖了强化学习、蒙特卡洛树搜索、自我对弈,并与LLM训练相联系,同时讨论了自动化AI研究。

与 @ericjang11 的新黑板讲座。他演示了如何用现代AI工具从头构建AlphaGo。有时,通过回顾过去能更好地理解未来。AlphaGo 仍然是智能基本要素(搜索、从经验中学习、自我对弈)最清晰的工作示例。你必须回到2017年,才能洞察未来更通用的AI可能如何学习。在他解释了AlphaGo的工作原理之后,我们有了讨论强化学习在LLM中如何工作以及如何更好地工作的背景——朴素的策略梯度强化学习必须从轨迹中数十万个token中找出哪些真正让你得到了正确答案,而AlphaGo的MCTS每一步都建议一个严格更好的动作,从而提供了一个绕过信用分配问题的训练目标。人类的学习方式显然更接近后者。Eric还在他的项目上启动了一个自动研究循环。讨论AI研究的哪些部分LLM已经可以很好地自动化(实施和运行实验、优化超参数)以及哪些部分仍难以处理(选择下一步要研究的问题、摆脱研究死胡同),很有启发性。这对于最近关于何时应期待智能爆炸以及从内部看会是什么样子的讨论也提供了信息。时间戳:0:00:00 – 围棋基础 0:08:06 – 蒙特卡洛树搜索 0:31:53 – 神经网络的作用 1:00:22 – 自我对弈 1:25:27 – 替代强化学习方法 1:45:36 – 为什么MCTS不适用于LLM 2:00:58 – 离线策略训练 2:11:51 – 强化学习的信息效率比你想象的还要低 2:22:05 – 自动化AI研究人员
查看原文

相似文章

Building AlphaGo from scratch – Eric Jang

Reddit r/singularity

Eric Jang 从头重建了 AlphaGo 并详细解释了蒙特卡洛树搜索和深度学习在围棋中的应用,展示了当前低成本复现强力围棋AI的可行性。