@tan_maty: 我勒个去,下周去 OpenAI 上班的神仙姐姐 @alisawuffles 分享的 AI 斯坦福课程,我给找到了,小白必看! 我已经学废了,你们也快来吧,我感觉我英文水平也进步了! Stanford CS336: Language Mod…

X AI KOLs Timeline 事件

摘要

斯坦福大学CS336课程旨在让学生从零开始构建语言模型,深入理解数据、系统和模型的全栈设计,课程视频已公开,适合AI初学者学习。

我勒个去,下周去 OpenAI 上班的神仙姐姐 @alisawuffles 分享的 AI 斯坦福课程,我给找到了,小白必看! 我已经学废了,你们也快来吧,我感觉我英文水平也进步了! Stanford CS336: Language Modeling from Scratch https://t.co/RAxxIU7X12 https://t.co/U3JgLPPcnf
查看原文
查看缓存全文

缓存时间: 2026/06/24 12:25

我勒个去,下周去 OpenAI 上班的神仙姐姐 @alisawuffles 分享的 AI 斯坦福课程,我给找到了,小白必看!

我已经学废了,你们也快来吧,我感觉我英文水平也进步了!

Stanford CS336: Language Modeling from Scratch

https://t.co/RAxxIU7X12 https://t.co/U3JgLPPcnf


TL;DR: 斯坦福CS336课程旨在让学生从零开始构建语言模型,深入理解数据、系统和模型的全栈设计,并强调规模下的算法效率。

课程介绍:从零构建语言模型

CS336 是斯坦福大学开设的课程,核心目标是让学生亲手构建完整的语言模型——从数据系统到建模。课程由 Percy 和 Tatsu 联合授课,助教团队包括 Roit、Neil 和 Marcel。正如 Percy 所说:“要理解它,就必须构建它。” 这门课的所有讲座都已上传到YouTube,供全球学习者使用。

为什么开设这门课?打破研究者的“抽象黑箱”

Percy 指出当前存在一个危机:研究人员与底层技术脱节越来越严重。八年前,研究者会自己实现和训练AI模型;六年前,至少还会下载BERT进行微调。而现在,许多人仅通过提示专有模型就能完成任务。虽然抽象层带来了便利,但这些抽象是有漏洞的——你并不真正理解它本质上只是“字符串进、字符串出”。基础研究需要打破整个技术栈,共同设计数据、系统和模型。这门课的目的正是让基础研究继续下去。

小型模型的局限性:规模变化的两个表现

工业化语言模型规模惊人:GPT-4 据传有1.8万亿参数,训练成本高达1亿美元;XAI 正在构建包含20万块H100的集群;未来四年有超过5000亿美元的投资。但前沿模型对大多数人遥不可及,因此课程专注于小型语言模型。然而,小模型可能不具有代表性,原因有二:

  1. FLOPs比例的变化:在小型Transformer中,注意力层与MLP层的FLOPs数量大致相当;但当参数规模达到1750亿时,MLP层完全主导。如果只在小规模优化注意力,实际在大规模上效果会被淹没。

  2. 涌现行为:2022年Jason Wave的论文显示,随着训练FLOPs增加,某些任务(如上下文学习)的准确率在临界点突然跃升。如果只停留在小规模,可能会得出“语言模型不管用”的错误结论。

课程能教什么:机制、思维方式与直觉

Percy 将知识分为三类:

  • 机制(可教):Transformer实现、模型并行、GPU高效利用等。
  • 思维方式(更重要):榨干硬件性能、认真对待规模化。这种思维方式由OpenAI开创,是引领下一代AI模型的关键。
  • 直觉(只能部分教):哪些数据和建模决策能带来好模型。因为小规模有效的架构和数据集在大规模可能无效。即便如此,能学到两个半已经很划算。

关于直觉,Percy 引用了一篇介绍Swish激活函数的论文,结论是“我们无法解释,只能说这是神的恩赐”——实验自己会说话。

苦涩教训的真正含义:规模下的算法才重要

“苦涩的教训”常被误解为“规模就是一切,算法不重要”。Percy 认为这大错特错。正确的解读是:模型的准确性 = 效率 × 投入资源。效率在大规模下更重要,因为花费数亿美元时,不能像在本地集群上那样浪费资源。OpenAI 2020年的一篇论文显示,从2012年到2019年,在ImageNet上训练到一定准确率的算法效率提升了44倍(超过摩尔定律)。对于语言模型,类似结果也存在。

因此,正确的框架是:给定一定的计算和数据预算,能构建的最佳模型是什么?作为研究人员,目标是提高算法的效率。

历史回顾:语言模型的演化

  • 早期:Shannon用语言模型估计英语熵;2007年谷歌训练了基于2万亿token的五元n-gram模型(比GPT-3的token还多),但缺乏涌现行为。
  • 2010年代:深度学习革命——2003年Yoshua Bengio的第一个神经语言模型、序列到序列模型(Ilya等人)、Adam优化器、注意力机制、2017年“Attention Is All You Need”(Transformer)、混合专家模型的扩展、模型并行技术(已可训练千亿参数模型)。
  • 基础模型趋势:ELMo、BERT、T5等在大规模文本上预训练并适应下游任务。
  • 关键转折:OpenAI结合组件并推动规模法则,产生GPT-2、GPT-3。此后分为闭源模型(通过API访问)和开源模型(如EleutherAI、Meta、Bloom、阿里巴巴、DeepSeek等)。开放层次包括:闭源、开放权重(有架构细节但无数据集细节)、开源(所有权重和数据可用)。

当前格局与课程方法

目前前沿模型来自OpenAI、Anthropic、xAI、Google、Meta、DeepSeek、阿里巴巴、腾讯等。课程将重新审视这些组件的技术原理,并尽可能接近前沿模型的最佳实践,同时利用开源社区信息以及从闭源模型推断出的内容。课程采用可执行讲座形式,嵌入代码逐步讲解。

Source: https://www.youtube.com/watch?v=SQ3fZ1sAqXI

相似文章