@tan_maty: 我勒个去，下周去 OpenAI 上班的神仙姐姐 @alisawuffles 分享的 AI 斯坦福课程，我给找到了，小白必看！我已经学废了，你们也快来吧，我感觉我英文水平也进步了！ Stanford CS336: Language Mod…

X AI KOLs Timeline 2026/06/23 15:52 事件

摘要

斯坦福大学CS336课程旨在让学生从零开始构建语言模型，深入理解数据、系统和模型的全栈设计，课程视频已公开，适合AI初学者学习。

我勒个去，下周去 OpenAI 上班的神仙姐姐 @alisawuffles 分享的 AI 斯坦福课程，我给找到了，小白必看！我已经学废了，你们也快来吧，我感觉我英文水平也进步了！ Stanford CS336: Language Modeling from Scratch https://t.co/RAxxIU7X12 https://t.co/U3JgLPPcnf

查看原文

查看缓存全文

缓存时间: 2026/06/24 12:25

我勒个去，下周去 OpenAI 上班的神仙姐姐 @alisawuffles 分享的 AI 斯坦福课程，我给找到了，小白必看！

我已经学废了，你们也快来吧，我感觉我英文水平也进步了！

Stanford CS336: Language Modeling from Scratch

https://t.co/RAxxIU7X12 https://t.co/U3JgLPPcnf

TL;DR: 斯坦福CS336课程旨在让学生从零开始构建语言模型，深入理解数据、系统和模型的全栈设计，并强调规模下的算法效率。

课程介绍：从零构建语言模型

CS336 是斯坦福大学开设的课程，核心目标是让学生亲手构建完整的语言模型——从数据系统到建模。课程由 Percy 和 Tatsu 联合授课，助教团队包括 Roit、Neil 和 Marcel。正如 Percy 所说：“要理解它，就必须构建它。” 这门课的所有讲座都已上传到YouTube，供全球学习者使用。

为什么开设这门课？打破研究者的“抽象黑箱”

Percy 指出当前存在一个危机：研究人员与底层技术脱节越来越严重。八年前，研究者会自己实现和训练AI模型；六年前，至少还会下载BERT进行微调。而现在，许多人仅通过提示专有模型就能完成任务。虽然抽象层带来了便利，但这些抽象是有漏洞的——你并不真正理解它本质上只是“字符串进、字符串出”。基础研究需要打破整个技术栈，共同设计数据、系统和模型。这门课的目的正是让基础研究继续下去。

小型模型的局限性：规模变化的两个表现

工业化语言模型规模惊人：GPT-4 据传有1.8万亿参数，训练成本高达1亿美元；XAI 正在构建包含20万块H100的集群；未来四年有超过5000亿美元的投资。但前沿模型对大多数人遥不可及，因此课程专注于小型语言模型。然而，小模型可能不具有代表性，原因有二：

FLOPs比例的变化：在小型Transformer中，注意力层与MLP层的FLOPs数量大致相当；但当参数规模达到1750亿时，MLP层完全主导。如果只在小规模优化注意力，实际在大规模上效果会被淹没。
涌现行为：2022年Jason Wave的论文显示，随着训练FLOPs增加，某些任务（如上下文学习）的准确率在临界点突然跃升。如果只停留在小规模，可能会得出“语言模型不管用”的错误结论。

课程能教什么：机制、思维方式与直觉

Percy 将知识分为三类：

机制（可教）：Transformer实现、模型并行、GPU高效利用等。
思维方式（更重要）：榨干硬件性能、认真对待规模化。这种思维方式由OpenAI开创，是引领下一代AI模型的关键。
直觉（只能部分教）：哪些数据和建模决策能带来好模型。因为小规模有效的架构和数据集在大规模可能无效。即便如此，能学到两个半已经很划算。

关于直觉，Percy 引用了一篇介绍Swish激活函数的论文，结论是“我们无法解释，只能说这是神的恩赐”——实验自己会说话。

苦涩教训的真正含义：规模下的算法才重要

“苦涩的教训”常被误解为“规模就是一切，算法不重要”。Percy 认为这大错特错。正确的解读是：模型的准确性 = 效率 × 投入资源。效率在大规模下更重要，因为花费数亿美元时，不能像在本地集群上那样浪费资源。OpenAI 2020年的一篇论文显示，从2012年到2019年，在ImageNet上训练到一定准确率的算法效率提升了44倍（超过摩尔定律）。对于语言模型，类似结果也存在。

因此，正确的框架是：给定一定的计算和数据预算，能构建的最佳模型是什么？作为研究人员，目标是提高算法的效率。

历史回顾：语言模型的演化

早期：Shannon用语言模型估计英语熵；2007年谷歌训练了基于2万亿token的五元n-gram模型（比GPT-3的token还多），但缺乏涌现行为。
2010年代：深度学习革命——2003年Yoshua Bengio的第一个神经语言模型、序列到序列模型（Ilya等人）、Adam优化器、注意力机制、2017年“Attention Is All You Need”（Transformer）、混合专家模型的扩展、模型并行技术（已可训练千亿参数模型）。
基础模型趋势：ELMo、BERT、T5等在大规模文本上预训练并适应下游任务。
关键转折：OpenAI结合组件并推动规模法则，产生GPT-2、GPT-3。此后分为闭源模型（通过API访问）和开源模型（如EleutherAI、Meta、Bloom、阿里巴巴、DeepSeek等）。开放层次包括：闭源、开放权重（有架构细节但无数据集细节）、开源（所有权重和数据可用）。

当前格局与课程方法

目前前沿模型来自OpenAI、Anthropic、xAI、Google、Meta、DeepSeek、阿里巴巴、腾讯等。课程将重新审视这些组件的技术原理，并尽可能接近前沿模型的最佳实践，同时利用开源社区信息以及从闭源模型推断出的内容。课程采用可执行讲座形式，嵌入代码逐步讲解。

Source: https://www.youtube.com/watch?v=SQ3fZ1sAqXI

相似文章

@li9292: 如何加入OpenAI？只需精通以下课程： 1. 斯坦福大学的“从零开始的语言建模”课程：http://cs336.stanford.edu/spring2025/ 2. 在掌握广度之后，她逐一深入研究概念，使用博客、论文、与 ChatGP…

X AI KOLs Timeline

该推文推荐了斯坦福大学CS336课程及一系列学习资源，作为加入OpenAI的准备路径。

@Honcia13: 斯坦福出了一门神课：免费教你用AI写代码，把生产力干到10倍！ CS146S The Modern Software Developer 核心就是把开发流程升级成：规划 → AI生成 → 修改 → 迭代 10周内容极硬核，每周都有干货 +…

X AI KOLs Timeline

Stanford has released a free course, CS146S 'The Modern Software Developer', which teaches developers to use AI to boost coding productivity by integrating AI into the development workflow.

@dunik_7: Percy Liang 教授斯坦福学生 AI 的真实思考方式，现在我们也能够学习。同样的斯坦福本科课程…

X AI KOLs Timeline

Percy Liang公开了他在斯坦福大学授课的AI课程，内容涵盖搜索规划、强化学习、概率与贝叶斯网络及机器学习基础，让公众免费学习原本高学费的课程。

@Russell3402: 有朋友想学习 AI 工程我半天没能给出一个好的学习链路这里给大家推荐一个开源 AI 工程学习焚决！它想带你从底层开始，把 AI 工程完整学一遍：从数学、机器学习、深度学习、Transformer、LLM、Agent、MCP、多智能…

X AI KOLs Timeline

推荐一个开源AI工程学习课程，包含20个阶段、503节课，从数学基础到生产部署，覆盖Python等语言，旨在从零构建完整AI工程体系。

@CoderDaMing: 今晚与其刷两个小时 Netflix，不如认真看完斯坦福这场讲座。它可能是我见过的，把 ChatGPT 和 Claude 工作原理讲得最清楚的一次。无论你是刚接触 AI 的新手，还是过去一年每天都在用 AI 的重度用户，这场讲座…

X AI KOLs Timeline

推荐一场斯坦福大学关于 ChatGPT 和 Claude 工作原理的讲座，并将其核心内容提炼为实用指南，帮助用户有效使用 AI 工具。

课程介绍：从零构建语言模型

为什么开设这门课？打破研究者的“抽象黑箱”

小型模型的局限性：规模变化的两个表现

课程能教什么：机制、思维方式与直觉

苦涩教训的真正含义：规模下的算法才重要

历史回顾：语言模型的演化

当前格局与课程方法

相似文章

@li9292: 如何加入OpenAI？只需精通以下课程： 1. 斯坦福大学的“从零开始的语言建模”课程：http://cs336.stanford.edu/spring2025/ 2. 在掌握广度之后，她逐一深入研究概念，使用博客、论文、与 ChatGP…

@Honcia13: 斯坦福出了一门神课：免费教你用AI写代码，把生产力干到10倍！ CS146S The Modern Software Developer 核心就是把开发流程升级成：规划 → AI生成 → 修改 → 迭代 10周内容极硬核，每周都有干货 +…

@dunik_7: Percy Liang 教授斯坦福学生 AI 的真实思考方式，现在我们也能够学习。同样的斯坦福本科课程…

@Russell3402: 有朋友想学习 AI 工程 我半天没能给出一个好的学习链路 这里给大家推荐一个开源 AI 工程学习焚决！ 它想带你从底层开始，把 AI 工程完整学一遍： 从数学、机器学习、深度学习、Transformer、LLM、Agent、MCP、多智能…

@CoderDaMing: 今晚与其刷两个小时 Netflix， 不如认真看完斯坦福这场讲座。 它可能是我见过的， 把 ChatGPT 和 Claude 工作原理讲得最清楚的一次。 无论你是刚接触 AI 的新手， 还是过去一年每天都在用 AI 的重度用户， 这场讲座…

提交意见反馈

@Russell3402: 有朋友想学习 AI 工程我半天没能给出一个好的学习链路这里给大家推荐一个开源 AI 工程学习焚决！它想带你从底层开始，把 AI 工程完整学一遍：从数学、机器学习、深度学习、Transformer、LLM、Agent、MCP、多智能…

@CoderDaMing: 今晚与其刷两个小时 Netflix，不如认真看完斯坦福这场讲座。它可能是我见过的，把 ChatGPT 和 Claude 工作原理讲得最清楚的一次。无论你是刚接触 AI 的新手，还是过去一年每天都在用 AI 的重度用户，这场讲座…