@danielhanchen: I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! 2026 has greatly changed how one should learn lower…

X AI KOLs Following 事件

摘要

Daniel Han 在 AI Engineer World's Fair 上举办长达3小时的高级工作坊,分享了对开源大模型历史、训练阶段分类(预训练、中期训练、监督微调、后训练、强化微调)以及推理模型跃升的见解,并介绍了其团队在微调优化方面的开源贡献。

I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! 🚀 2026 has greatly changed how one should learn lower-level technicals like kernels, agentic RL, reward hacking, cont learning. What would you like to see? Last year @aiDotEngineer: https://t.co/3j8qcMD9u8
查看原文
查看缓存全文

缓存时间: 2026/06/24 08:00

I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! 🚀

2026 has greatly changed how one should learn lower-level technicals like kernels, agentic RL, reward hacking, cont learning.

What would you like to see?

Last year @aiDotEngineer: https://t.co/3j8qcMD9u8


TL;DR: Daniel Han 在 AI Engineer World’s Fair 上分享了对开源大模型历史、训练阶段分类以及近期推理模型跃升的见解,并介绍了其团队在微调优化方面的开源贡献。

自我介绍与项目背景

Daniel Han 首先道歉迟到,并介绍自己是 AI 工程师社区的一员。他的团队以在 X 平台上活跃而闻名,曾修复梯度累积 bug,提出“异步卸载梯度检查点”技术,并与 Hugging Face、Google、Meta、Mistral 等合作修复 Gemma、Llama、Mistral MoE 等模型中的 bug。他们为整个开源生态做贡献,例如对 llama.cpp 的贡献,以及与 Qwen、Mistral 在模型发布上的合作。

团队在 Hugging Face 上的月下载量突破 1000 万,GitHub 星标达 4 万。其核心工作是让微调更快、内存占用更少。GitHub 包中有免费的 Colab 和 Kaggle 笔记本(Google 免费 GPU、Kaggle 每周 30 小时免费 GPU),可用于推理、继续预训练、监督微调等。他们也将量化模型(如 1.58 比特版本)上传到 Hugging Face,这些模型体积小且保留大部分准确率,可在本地设备运行。

开源模型的历史与关键里程碑

Llama 的开源催化作用

最早是 Meta 的 Llama 研究论文,最初只有研究访问权限,权重被意外泄露后催生整个开源运动。Llama 1 只训练了 1.4 万亿 token,损失随训练时间下降。现在模型规模大得多:Gemma 3 训练了 14 万亿 token,Llama 4 为 30 万亿 token。

开源 vs 闭源:追赶与分化

Maxim 的图显示,在 MMLU 5-shot 上开源模型斜率更陡,最终 Llama 3.1 405B 达到 GPT-4 水平,开源已赶上闭源。但 2024 年 9 月后出现“开源寒冬”:o1-preview 展现出推理链,能力跃升,开源社区四个月内无法复现。直到 2025 年 1 月 DeepSeek R1 发布,证明开源模型也能训练出与 o1/o3 相当的能力。

训练阶段的分类与命名

Daniel 解释了当前模型训练的阶段划分:

  1. 预训练(Pre-training):利用所有公开数据(维基百科、网页等)预测下一个词。
  2. 中期训练(Mid-training):给高质量数据更高权重(如维基百科),或做长上下文扩展。
  3. 监督微调(SFT / Instruction Fine-tuning):将基座模型转换为聊天模型(如 ChatGPT、Claude 4 Opus、Gemini 2.5 Pro 等)。
  4. 后训练(Post-training):偏好微调、DPO、RLHF 等。
  5. 强化微调(RLVR):带可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards),一种新范式。

模型命名不统一:常见的有 PT(预训练)、IT(指令微调)、Instruct、Chat、Base 等。开源社区应标准化命名。

从历史看未来:能力跃升的两次浪潮

  • 第一次跃升:SFT / RLHF 跃升——通过好的监督微调和强化学习,模型性能大幅提升。
  • 第二次跃升:RL 跃升——采用 RL 方法论(如 R1)进一步极大提升性能。
  • 接下来是什么?Daniel 认为推理可能是最后一步,因为 DeepSeek R1 论文指出模型已具备推理能力,只需要强化。但每次闭源模型都会做出阶跃函数,未来是否平台期尚不确定。

Yann LeCun 的蛋糕类比

社区流传 Yann LeCun 在 2016 年就提出的观点:无监督学习(预训练)是蛋糕,监督微调是糖霜,强化学习是樱桃。但强化学习数据很少,大模型实验室通过预训练 + 迭代微调来优化。

随机初始化的说明

模型从随机参数开始(例如 70 亿参数的 GPT-4 都是随机数),通过训练逐渐移动权重到有用状态。


Source: @danielhanchen: I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! | YouTube

相似文章