@natolambert: 为新书增加的新讲座！名义上是关于合成数据，但主要是对蒸馏文献的回顾，从……

X AI KOLs Timeline 2026/06/23 15:14 新闻

摘要

Natolambert 宣布了一场新讲座，内容涵盖合成数据和蒸馏的历史，从 Hinton 2015 年的论文到现代的 on-policy 蒸馏，视频总时长超过 7 小时。

为新书增加的新讲座！名义上是关于合成数据，但主要是对蒸馏文献的回顾，从 Hinton 2015 年的论文到当今的多教师 on-policy 蒸馏！在我的后训练脑力倾泻中有 7.4 小时的视频内容，并且还在增加 :) 长时间盯着数学公式，讨论原始公式需要做出的 3-4 个核心更改，以便 on-policy 蒸馏如今能够像这样（以及在强化学习框架中）成为主流，这是一件有趣的事。此外，我还包含了一些历史教训，讲述合成数据如何逐渐接管所有后训练数据研究（并非一直如此）！然后我对合宪AI、评分标准和其他流行方法进行了 101 复习。 00:00 合成数据的出现 10:50 师生知识蒸馏背景 24:47 On-policy 蒸馏（OPD、MOPD 和 OPSD） 37:11 合宪AI与人工智能反馈 45:50 作为奖励和结论的评分标准当然，请观看 YouTube 等平台。

查看原文

查看缓存全文

缓存时间: 2026/06/23 16:12

新书讲座上线了！名义上是讲合成数据，但实际上更像是一次知识蒸馏文献的梳理——从Hinton 2015年的论文，一直讲到如今的多教师同策略蒸馏。

视频总长7.4小时，是我关于后训练思考的干货合集，而且还在不断增加中 :)

盯着数学公式看了足够久，梳理出从原始公式到如今主流的同策略蒸馏（以及RL框架）所需的3-4个核心改动，这个过程很有趣。

此外，我还穿插了一段历史课，讲合成数据如何逐步占领所有后训练数据研究（它并非一直如此）！然后做了一些入门级介绍，涉及宪法AI、评分准则和其他流行方法。

00:00 合成数据的兴起
10:50 师生知识蒸馏背景
24:47 同策略蒸馏（OPD、MOPD、OPSD）
37:11 宪法AI与AI反馈
45:50 作为奖励的评分准则及总结

当然，可以在YouTube等平台观看。

@natolambert: 为新书增加的新讲座！名义上是关于合成数据，但主要是对蒸馏文献的回顾，从……

相似文章

@natolambert: 新播客与@finbarrtimbers！我们盘点最新的后训练配方，从GLM 5.1、Kimi K2.6、DeepSeek V4、Xia…

@zhaisf: 这是 @geoffreyhinton 提出的蒸馏方法的一些神奇结果，当我第一次看到它们时，真的让我震惊，而且……

@neural_avb: 如果你对 On Policy Distillation 感兴趣，可以看看这个特定仓库。有人整理了一份精选合集…

@NielsRogge: 当前AI领域最热门的术语之一是"On-policy distillation"。这是一种后训练技术，其中学生模型…

@yacinelearning：各位系好安全带，本周四我们邀请到了@joelniklaus（来自@huggingface）加入直播，分享合成数据如何推动预训练的发展……

提交意见反馈