@danielhanchen: I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! 2026 has greatly changed how one should learn lower…
摘要
Daniel Han 在 AI Engineer World's Fair 上举办长达3小时的高级工作坊,分享了对开源大模型历史、训练阶段分类(预训练、中期训练、监督微调、后训练、强化微调)以及推理模型跃升的见解,并介绍了其团队在微调优化方面的开源贡献。
查看缓存全文
缓存时间: 2026/06/24 08:00
I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! 🚀
2026 has greatly changed how one should learn lower-level technicals like kernels, agentic RL, reward hacking, cont learning.
What would you like to see?
Last year @aiDotEngineer: https://t.co/3j8qcMD9u8
TL;DR: Daniel Han 在 AI Engineer World’s Fair 上分享了对开源大模型历史、训练阶段分类以及近期推理模型跃升的见解,并介绍了其团队在微调优化方面的开源贡献。
自我介绍与项目背景
Daniel Han 首先道歉迟到,并介绍自己是 AI 工程师社区的一员。他的团队以在 X 平台上活跃而闻名,曾修复梯度累积 bug,提出“异步卸载梯度检查点”技术,并与 Hugging Face、Google、Meta、Mistral 等合作修复 Gemma、Llama、Mistral MoE 等模型中的 bug。他们为整个开源生态做贡献,例如对 llama.cpp 的贡献,以及与 Qwen、Mistral 在模型发布上的合作。
团队在 Hugging Face 上的月下载量突破 1000 万,GitHub 星标达 4 万。其核心工作是让微调更快、内存占用更少。GitHub 包中有免费的 Colab 和 Kaggle 笔记本(Google 免费 GPU、Kaggle 每周 30 小时免费 GPU),可用于推理、继续预训练、监督微调等。他们也将量化模型(如 1.58 比特版本)上传到 Hugging Face,这些模型体积小且保留大部分准确率,可在本地设备运行。
开源模型的历史与关键里程碑
Llama 的开源催化作用
最早是 Meta 的 Llama 研究论文,最初只有研究访问权限,权重被意外泄露后催生整个开源运动。Llama 1 只训练了 1.4 万亿 token,损失随训练时间下降。现在模型规模大得多:Gemma 3 训练了 14 万亿 token,Llama 4 为 30 万亿 token。
开源 vs 闭源:追赶与分化
Maxim 的图显示,在 MMLU 5-shot 上开源模型斜率更陡,最终 Llama 3.1 405B 达到 GPT-4 水平,开源已赶上闭源。但 2024 年 9 月后出现“开源寒冬”:o1-preview 展现出推理链,能力跃升,开源社区四个月内无法复现。直到 2025 年 1 月 DeepSeek R1 发布,证明开源模型也能训练出与 o1/o3 相当的能力。
训练阶段的分类与命名
Daniel 解释了当前模型训练的阶段划分:
- 预训练(Pre-training):利用所有公开数据(维基百科、网页等)预测下一个词。
- 中期训练(Mid-training):给高质量数据更高权重(如维基百科),或做长上下文扩展。
- 监督微调(SFT / Instruction Fine-tuning):将基座模型转换为聊天模型(如 ChatGPT、Claude 4 Opus、Gemini 2.5 Pro 等)。
- 后训练(Post-training):偏好微调、DPO、RLHF 等。
- 强化微调(RLVR):带可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards),一种新范式。
模型命名不统一:常见的有 PT(预训练)、IT(指令微调)、Instruct、Chat、Base 等。开源社区应标准化命名。
从历史看未来:能力跃升的两次浪潮
- 第一次跃升:SFT / RLHF 跃升——通过好的监督微调和强化学习,模型性能大幅提升。
- 第二次跃升:RL 跃升——采用 RL 方法论(如 R1)进一步极大提升性能。
- 接下来是什么?Daniel 认为推理可能是最后一步,因为 DeepSeek R1 论文指出模型已具备推理能力,只需要强化。但每次闭源模型都会做出阶跃函数,未来是否平台期尚不确定。
Yann LeCun 的蛋糕类比
社区流传 Yann LeCun 在 2016 年就提出的观点:无监督学习(预训练)是蛋糕,监督微调是糖霜,强化学习是樱桃。但强化学习数据很少,大模型实验室通过预训练 + 迭代微调来优化。
随机初始化的说明
模型从随机参数开始(例如 70 亿参数的 GPT-4 都是随机数),通过训练逐渐移动权重到有用状态。
Source: @danielhanchen: I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! | YouTube
相似文章
@yibie: 训练小模型:2026 年最被低估的 AI 技能 2026 年 5 月 11 日,一个叫 CJ Zafir 的人发了一条推文。他想教普通人 fine-tune 开源模型。 2538 个赞,316 次转发,178,000 次观看。这条推文炸了…
2026年5月,CJ Zafir 一条教普通人微调开源模型的推文获得广泛关注,展示了训练小模型作为2026年最被低估AI技能的趋势。
@FinnTsai88: https://x.com/FinnTsai88/status/2066451245515333902
文章介绍了OpenAI于6月12日发布的三门新课程,并提供了一个7天练习计划,帮助用户从基础使用到构建AI工作流,最后给出了检查清单。
@Jackywine: 今天绝对不能错过 Anthropic 这篇博客 运营一个人工智能原生组织 https://claude.com/blog/running-an-ai-native-engineering-org… 顺便问一下大家有无更好的翻译模型
Anthropic's engineering blog discusses how running an AI-native engineering org requires rethinking planning, context gathering, and code review, with agentic coding shifting bottlenecks from coding to verification and review.
@ma_zhenyuan: https://x.com/ma_zhenyuan/status/2057702858800370052
这篇文章介绍了Superpowers,一套基于Claude Code的AI工作流Skills,提供自动化的头脑风暴、计划、子代理开发和测试驱动开发,能显著提升AI交付效率。
@snowboat84: https://x.com/snowboat84/status/2065215177029787705
本文是AI工程全景系列的中篇,详细介绍了推理优化、模型瘦身(量化、蒸馏、剪枝、MoE)和投机解码等核心技术,综述了从硬件到工程栈的最新进展。