@tan_maty: 我勒个去,下周去 OpenAI 上班的神仙姐姐 @alisawuffles 分享的 AI 斯坦福课程,我给找到了,小白必看! 我已经学废了,你们也快来吧,我感觉我英文水平也进步了! Stanford CS336: Language Mod…
摘要
斯坦福大学CS336课程旨在让学生从零开始构建语言模型,深入理解数据、系统和模型的全栈设计,课程视频已公开,适合AI初学者学习。
查看缓存全文
缓存时间: 2026/06/24 12:25
我勒个去,下周去 OpenAI 上班的神仙姐姐 @alisawuffles 分享的 AI 斯坦福课程,我给找到了,小白必看!
我已经学废了,你们也快来吧,我感觉我英文水平也进步了!
Stanford CS336: Language Modeling from Scratch
https://t.co/RAxxIU7X12 https://t.co/U3JgLPPcnf
TL;DR: 斯坦福CS336课程旨在让学生从零开始构建语言模型,深入理解数据、系统和模型的全栈设计,并强调规模下的算法效率。
课程介绍:从零构建语言模型
CS336 是斯坦福大学开设的课程,核心目标是让学生亲手构建完整的语言模型——从数据系统到建模。课程由 Percy 和 Tatsu 联合授课,助教团队包括 Roit、Neil 和 Marcel。正如 Percy 所说:“要理解它,就必须构建它。” 这门课的所有讲座都已上传到YouTube,供全球学习者使用。
为什么开设这门课?打破研究者的“抽象黑箱”
Percy 指出当前存在一个危机:研究人员与底层技术脱节越来越严重。八年前,研究者会自己实现和训练AI模型;六年前,至少还会下载BERT进行微调。而现在,许多人仅通过提示专有模型就能完成任务。虽然抽象层带来了便利,但这些抽象是有漏洞的——你并不真正理解它本质上只是“字符串进、字符串出”。基础研究需要打破整个技术栈,共同设计数据、系统和模型。这门课的目的正是让基础研究继续下去。
小型模型的局限性:规模变化的两个表现
工业化语言模型规模惊人:GPT-4 据传有1.8万亿参数,训练成本高达1亿美元;XAI 正在构建包含20万块H100的集群;未来四年有超过5000亿美元的投资。但前沿模型对大多数人遥不可及,因此课程专注于小型语言模型。然而,小模型可能不具有代表性,原因有二:
-
FLOPs比例的变化:在小型Transformer中,注意力层与MLP层的FLOPs数量大致相当;但当参数规模达到1750亿时,MLP层完全主导。如果只在小规模优化注意力,实际在大规模上效果会被淹没。
-
涌现行为:2022年Jason Wave的论文显示,随着训练FLOPs增加,某些任务(如上下文学习)的准确率在临界点突然跃升。如果只停留在小规模,可能会得出“语言模型不管用”的错误结论。
课程能教什么:机制、思维方式与直觉
Percy 将知识分为三类:
- 机制(可教):Transformer实现、模型并行、GPU高效利用等。
- 思维方式(更重要):榨干硬件性能、认真对待规模化。这种思维方式由OpenAI开创,是引领下一代AI模型的关键。
- 直觉(只能部分教):哪些数据和建模决策能带来好模型。因为小规模有效的架构和数据集在大规模可能无效。即便如此,能学到两个半已经很划算。
关于直觉,Percy 引用了一篇介绍Swish激活函数的论文,结论是“我们无法解释,只能说这是神的恩赐”——实验自己会说话。
苦涩教训的真正含义:规模下的算法才重要
“苦涩的教训”常被误解为“规模就是一切,算法不重要”。Percy 认为这大错特错。正确的解读是:模型的准确性 = 效率 × 投入资源。效率在大规模下更重要,因为花费数亿美元时,不能像在本地集群上那样浪费资源。OpenAI 2020年的一篇论文显示,从2012年到2019年,在ImageNet上训练到一定准确率的算法效率提升了44倍(超过摩尔定律)。对于语言模型,类似结果也存在。
因此,正确的框架是:给定一定的计算和数据预算,能构建的最佳模型是什么?作为研究人员,目标是提高算法的效率。
历史回顾:语言模型的演化
- 早期:Shannon用语言模型估计英语熵;2007年谷歌训练了基于2万亿token的五元n-gram模型(比GPT-3的token还多),但缺乏涌现行为。
- 2010年代:深度学习革命——2003年Yoshua Bengio的第一个神经语言模型、序列到序列模型(Ilya等人)、Adam优化器、注意力机制、2017年“Attention Is All You Need”(Transformer)、混合专家模型的扩展、模型并行技术(已可训练千亿参数模型)。
- 基础模型趋势:ELMo、BERT、T5等在大规模文本上预训练并适应下游任务。
- 关键转折:OpenAI结合组件并推动规模法则,产生GPT-2、GPT-3。此后分为闭源模型(通过API访问)和开源模型(如EleutherAI、Meta、Bloom、阿里巴巴、DeepSeek等)。开放层次包括:闭源、开放权重(有架构细节但无数据集细节)、开源(所有权重和数据可用)。
当前格局与课程方法
目前前沿模型来自OpenAI、Anthropic、xAI、Google、Meta、DeepSeek、阿里巴巴、腾讯等。课程将重新审视这些组件的技术原理,并尽可能接近前沿模型的最佳实践,同时利用开源社区信息以及从闭源模型推断出的内容。课程采用可执行讲座形式,嵌入代码逐步讲解。
Source: https://www.youtube.com/watch?v=SQ3fZ1sAqXI
相似文章
@li9292: 如何加入OpenAI?只需精通以下课程: 1. 斯坦福大学的“从零开始的语言建模”课程:http://cs336.stanford.edu/spring2025/ 2. 在掌握广度之后,她逐一深入研究概念,使用博客、论文、与 ChatGP…
该推文推荐了斯坦福大学CS336课程及一系列学习资源,作为加入OpenAI的准备路径。
@Honcia13: 斯坦福出了一门神课:免费教你用AI写代码,把生产力干到10倍! CS146S The Modern Software Developer 核心就是把开发流程升级成:规划 → AI生成 → 修改 → 迭代 10周内容极硬核,每周都有干货 +…
Stanford has released a free course, CS146S 'The Modern Software Developer', which teaches developers to use AI to boost coding productivity by integrating AI into the development workflow.
@dunik_7: Percy Liang 教授斯坦福学生 AI 的真实思考方式,现在我们也能够学习。同样的斯坦福本科课程…
Percy Liang公开了他在斯坦福大学授课的AI课程,内容涵盖搜索规划、强化学习、概率与贝叶斯网络及机器学习基础,让公众免费学习原本高学费的课程。
@Russell3402: 有朋友想学习 AI 工程 我半天没能给出一个好的学习链路 这里给大家推荐一个开源 AI 工程学习焚决! 它想带你从底层开始,把 AI 工程完整学一遍: 从数学、机器学习、深度学习、Transformer、LLM、Agent、MCP、多智能…
推荐一个开源AI工程学习课程,包含20个阶段、503节课,从数学基础到生产部署,覆盖Python等语言,旨在从零构建完整AI工程体系。
@CoderDaMing: 今晚与其刷两个小时 Netflix, 不如认真看完斯坦福这场讲座。 它可能是我见过的, 把 ChatGPT 和 Claude 工作原理讲得最清楚的一次。 无论你是刚接触 AI 的新手, 还是过去一年每天都在用 AI 的重度用户, 这场讲座…
推荐一场斯坦福大学关于 ChatGPT 和 Claude 工作原理的讲座,并将其核心内容提炼为实用指南,帮助用户有效使用 AI 工具。