@natolambert: 为新书增加的新讲座!名义上是关于合成数据,但主要是对蒸馏文献的回顾,从……
摘要
Natolambert 宣布了一场新讲座,内容涵盖合成数据和蒸馏的历史,从 Hinton 2015 年的论文到现代的 on-policy 蒸馏,视频总时长超过 7 小时。
查看缓存全文
缓存时间: 2026/06/23 16:12
新书讲座上线了!名义上是讲合成数据,但实际上更像是一次知识蒸馏文献的梳理——从Hinton 2015年的论文,一直讲到如今的多教师同策略蒸馏。
视频总长7.4小时,是我关于后训练思考的干货合集,而且还在不断增加中 :)
盯着数学公式看了足够久,梳理出从原始公式到如今主流的同策略蒸馏(以及RL框架)所需的3-4个核心改动,这个过程很有趣。
此外,我还穿插了一段历史课,讲合成数据如何逐步占领所有后训练数据研究(它并非一直如此)!然后做了一些入门级介绍,涉及宪法AI、评分准则和其他流行方法。
00:00 合成数据的兴起
10:50 师生知识蒸馏背景
24:47 同策略蒸馏(OPD、MOPD、OPSD)
37:11 宪法AI与AI反馈
45:50 作为奖励的评分准则及总结
当然,可以在YouTube等平台观看。
相似文章
@natolambert: 新播客与@finbarrtimbers!我们盘点最新的后训练配方,从GLM 5.1、Kimi K2.6、DeepSeek V4、Xia…
Nathan Lambert和Finbarr Timbers讨论了大型语言模型的最新后训练配方,包括DeepSeek V4、GLM 5.1、Kimi K2.6,以及行业向多教师在线策略蒸馏的转变。
@zhaisf: 这是 @geoffreyhinton 提出的蒸馏方法的一些神奇结果,当我第一次看到它们时,真的让我震惊,而且……
本文讨论了模型蒸馏对训练分布的惊人鲁棒性,即使与目标分布的重叠很小,以及其对在线/离线策略蒸馏的影响。
@neural_avb: 如果你对 On Policy Distillation 感兴趣,可以看看这个特定仓库。有人整理了一份精选合集…
针对 On Policy Distillation 的精选论文和工具合集,分类并注释,附有入门指南部分,通过 GitHub 仓库分享。
@NielsRogge: 当前AI领域最热门的术语之一是"On-policy distillation"。这是一种后训练技术,其中学生模型…
On-policy distillation被强调为一种热门后训练技术,结合了蒸馏和在线RL,现已列入PapersWithCode,有183篇引用论文。
@yacinelearning:各位系好安全带,本周四我们邀请到了@joelniklaus(来自@huggingface)加入直播,分享合成数据如何推动预训练的发展……
Hugging Face 的 Joel Niklaus 将进行直播,探讨合成数据在推动预训练中的作用;团队还发布了一份关于该主题的实践指南。