@danielhanchen: I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! 2026 has greatly changed how one should learn lower…

X AI KOLs Following 2026/06/22 14:11 事件

workshop ai-engineer open-source large-language-models fine-tuning reinforcement-learning reasoning

摘要

Daniel Han 在 AI Engineer World's Fair 上举办长达3小时的高级工作坊，分享了对开源大模型历史、训练阶段分类（预训练、中期训练、监督微调、后训练、强化微调）以及推理模型跃升的见解，并介绍了其团队在微调优化方面的开源贡献。

I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! 🚀 2026 has greatly changed how one should learn lower-level technicals like kernels, agentic RL, reward hacking, cont learning. What would you like to see? Last year @aiDotEngineer: https://t.co/3j8qcMD9u8

查看原文

查看缓存全文

缓存时间: 2026/06/24 08:00

I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! 🚀

2026 has greatly changed how one should learn lower-level technicals like kernels, agentic RL, reward hacking, cont learning.

What would you like to see?

Last year @aiDotEngineer: https://t.co/3j8qcMD9u8

TL;DR: Daniel Han 在 AI Engineer World’s Fair 上分享了对开源大模型历史、训练阶段分类以及近期推理模型跃升的见解，并介绍了其团队在微调优化方面的开源贡献。

自我介绍与项目背景

Daniel Han 首先道歉迟到，并介绍自己是 AI 工程师社区的一员。他的团队以在 X 平台上活跃而闻名，曾修复梯度累积 bug，提出“异步卸载梯度检查点”技术，并与 Hugging Face、Google、Meta、Mistral 等合作修复 Gemma、Llama、Mistral MoE 等模型中的 bug。他们为整个开源生态做贡献，例如对 llama.cpp 的贡献，以及与 Qwen、Mistral 在模型发布上的合作。

团队在 Hugging Face 上的月下载量突破 1000 万，GitHub 星标达 4 万。其核心工作是让微调更快、内存占用更少。GitHub 包中有免费的 Colab 和 Kaggle 笔记本（Google 免费 GPU、Kaggle 每周 30 小时免费 GPU），可用于推理、继续预训练、监督微调等。他们也将量化模型（如 1.58 比特版本）上传到 Hugging Face，这些模型体积小且保留大部分准确率，可在本地设备运行。

开源模型的历史与关键里程碑

Llama 的开源催化作用

最早是 Meta 的 Llama 研究论文，最初只有研究访问权限，权重被意外泄露后催生整个开源运动。Llama 1 只训练了 1.4 万亿 token，损失随训练时间下降。现在模型规模大得多：Gemma 3 训练了 14 万亿 token，Llama 4 为 30 万亿 token。

开源 vs 闭源：追赶与分化

Maxim 的图显示，在 MMLU 5-shot 上开源模型斜率更陡，最终 Llama 3.1 405B 达到 GPT-4 水平，开源已赶上闭源。但 2024 年 9 月后出现“开源寒冬”：o1-preview 展现出推理链，能力跃升，开源社区四个月内无法复现。直到 2025 年 1 月 DeepSeek R1 发布，证明开源模型也能训练出与 o1/o3 相当的能力。

训练阶段的分类与命名

Daniel 解释了当前模型训练的阶段划分：

预训练（Pre-training）：利用所有公开数据（维基百科、网页等）预测下一个词。
中期训练（Mid-training）：给高质量数据更高权重（如维基百科），或做长上下文扩展。
监督微调（SFT / Instruction Fine-tuning）：将基座模型转换为聊天模型（如 ChatGPT、Claude 4 Opus、Gemini 2.5 Pro 等）。
后训练（Post-training）：偏好微调、DPO、RLHF 等。
强化微调（RLVR）：带可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards），一种新范式。

模型命名不统一：常见的有 PT（预训练）、IT（指令微调）、Instruct、Chat、Base 等。开源社区应标准化命名。

从历史看未来：能力跃升的两次浪潮

第一次跃升：SFT / RLHF 跃升——通过好的监督微调和强化学习，模型性能大幅提升。
第二次跃升：RL 跃升——采用 RL 方法论（如 R1）进一步极大提升性能。
接下来是什么？Daniel 认为推理可能是最后一步，因为 DeepSeek R1 论文指出模型已具备推理能力，只需要强化。但每次闭源模型都会做出阶跃函数，未来是否平台期尚不确定。

Yann LeCun 的蛋糕类比

社区流传 Yann LeCun 在 2016 年就提出的观点：无监督学习（预训练）是蛋糕，监督微调是糖霜，强化学习是樱桃。但强化学习数据很少，大模型实验室通过预训练 + 迭代微调来优化。

随机初始化的说明

模型从随机参数开始（例如 70 亿参数的 GPT-4 都是随机数），通过训练逐渐移动权重到有用状态。

Source: @danielhanchen: I’m running a 3 hour advanced workshop at AI Engineer World’s Fair! | YouTube

相似文章

@yibie: 训练小模型：2026 年最被低估的 AI 技能 2026 年 5 月 11 日，一个叫 CJ Zafir 的人发了一条推文。他想教普通人 fine-tune 开源模型。 2538 个赞，316 次转发，178,000 次观看。这条推文炸了…

X AI KOLs Timeline

2026年5月，CJ Zafir 一条教普通人微调开源模型的推文获得广泛关注，展示了训练小模型作为2026年最被低估AI技能的趋势。

@FinnTsai88: https://x.com/FinnTsai88/status/2066451245515333902

X AI KOLs Timeline

文章介绍了OpenAI于6月12日发布的三门新课程，并提供了一个7天练习计划，帮助用户从基础使用到构建AI工作流，最后给出了检查清单。

@Jackywine: 今天绝对不能错过 Anthropic 这篇博客运营一个人工智能原生组织 https://claude.com/blog/running-an-ai-native-engineering-org… 顺便问一下大家有无更好的翻译模型

X AI KOLs Timeline

Anthropic's engineering blog discusses how running an AI-native engineering org requires rethinking planning, context gathering, and code review, with agentic coding shifting bottlenecks from coding to verification and review.

@ma_zhenyuan: https://x.com/ma_zhenyuan/status/2057702858800370052

X AI KOLs Timeline

这篇文章介绍了Superpowers，一套基于Claude Code的AI工作流Skills，提供自动化的头脑风暴、计划、子代理开发和测试驱动开发，能显著提升AI交付效率。

@snowboat84: https://x.com/snowboat84/status/2065215177029787705

X AI KOLs Timeline

本文是AI工程全景系列的中篇，详细介绍了推理优化、模型瘦身（量化、蒸馏、剪枝、MoE）和投机解码等核心技术，综述了从硬件到工程栈的最新进展。

TL;DR: Daniel Han 在 AI Engineer World’s Fair 上分享了对开源大模型历史、训练阶段分类以及近期推理模型跃升的见解，并介绍了其团队在微调优化方面的开源贡献。

自我介绍与项目背景

开源模型的历史与关键里程碑

Llama 的开源催化作用

开源 vs 闭源：追赶与分化

训练阶段的分类与命名

从历史看未来：能力跃升的两次浪潮

Yann LeCun 的蛋糕类比

随机初始化的说明

相似文章

@yibie: 训练小模型：2026 年最被低估的 AI 技能 2026 年 5 月 11 日，一个叫 CJ Zafir 的人发了一条推文。他想教普通人 fine-tune 开源模型。 2538 个赞，316 次转发，178,000 次观看。这条推文炸了…

@FinnTsai88: https://x.com/FinnTsai88/status/2066451245515333902

@Jackywine: 今天绝对不能错过 Anthropic 这篇博客 运营一个人工智能原生组织 https://claude.com/blog/running-an-ai-native-engineering-org… 顺便问一下大家有无更好的翻译模型

@ma_zhenyuan: https://x.com/ma_zhenyuan/status/2057702858800370052

@snowboat84: https://x.com/snowboat84/status/2065215177029787705

提交意见反馈

@Jackywine: 今天绝对不能错过 Anthropic 这篇博客运营一个人工智能原生组织 https://claude.com/blog/running-an-ai-native-engineering-org… 顺便问一下大家有无更好的翻译模型