@dwarkesh_sp: 与 @ericjang11 的新黑板讲座:他演示了如何用现代AI工具从头构建AlphaGo。一些…
摘要
Eric Jang的黑板讲座逐步讲解了如何使用现代AI工具从零构建AlphaGo,涵盖了强化学习、蒙特卡洛树搜索、自我对弈,并与LLM训练相联系,同时讨论了自动化AI研究。
与 @ericjang11 的新黑板讲座。他演示了如何用现代AI工具从头构建AlphaGo。有时,通过回顾过去能更好地理解未来。AlphaGo 仍然是智能基本要素(搜索、从经验中学习、自我对弈)最清晰的工作示例。你必须回到2017年,才能洞察未来更通用的AI可能如何学习。在他解释了AlphaGo的工作原理之后,我们有了讨论强化学习在LLM中如何工作以及如何更好地工作的背景——朴素的策略梯度强化学习必须从轨迹中数十万个token中找出哪些真正让你得到了正确答案,而AlphaGo的MCTS每一步都建议一个严格更好的动作,从而提供了一个绕过信用分配问题的训练目标。人类的学习方式显然更接近后者。Eric还在他的项目上启动了一个自动研究循环。讨论AI研究的哪些部分LLM已经可以很好地自动化(实施和运行实验、优化超参数)以及哪些部分仍难以处理(选择下一步要研究的问题、摆脱研究死胡同),很有启发性。这对于最近关于何时应期待智能爆炸以及从内部看会是什么样子的讨论也提供了信息。时间戳:0:00:00 – 围棋基础 0:08:06 – 蒙特卡洛树搜索 0:31:53 – 神经网络的作用 1:00:22 – 自我对弈 1:25:27 – 替代强化学习方法 1:45:36 – 为什么MCTS不适用于LLM 2:00:58 – 离线策略训练 2:11:51 – 强化学习的信息效率比你想象的还要低 2:22:05 – 自动化AI研究人员
相似文章
Building AlphaGo from scratch – Eric Jang
Eric Jang 从头重建了 AlphaGo 并详细解释了蒙特卡洛树搜索和深度学习在围棋中的应用,展示了当前低成本复现强力围棋AI的可行性。
@shedoesai: 如何在不浪费1000多小时的情况下精通AI。没有无用的教程。没有虚假的AI大师。没有信息过载…
精选的AI学习栈,涵盖LLM、智能体、MCP、提示工程、RAG和向量数据库,包含视频、仓库、指南、书籍、论文和课程。同时提供了关于大型语言模型是什么以及它们如何工作的易懂解释。
@codewithimanshu:斯坦福教授刚刚免费公开了AI智能体与自动化的全部底层逻辑,1小时讲座。T…
斯坦福教授发布免费1小时讲座,系统讲解AI智能体、工具调用、多步工作流、规划与反思的核心原理。
从围棋到生物学及更远:AlphaGo 影响的十年
DeepMind 回顾 AlphaGo 诞生十周年,强调其在开启现代 AI 时代中的关键作用,以及它对科学研究和通用人工智能(AGI)探索的深远影响。
大语言模型“坦诚相告”、自动化科学研究、Copilot 用户真正想要什么、降低推理成本
DeepLearning.AI 推出《Build with Andrew》课程,帮助零编程基础的用户在 30 分钟内利用 AI 构建 Web 应用;同时,最新研究聚焦大语言模型的透明度问题,涵盖模型诚实性与自动化科学研究能力等方向。