@natolambert: 为新书增加的新讲座!名义上是关于合成数据,但主要是对蒸馏文献的回顾,从……

X AI KOLs Timeline 新闻

摘要

Natolambert 宣布了一场新讲座,内容涵盖合成数据和蒸馏的历史,从 Hinton 2015 年的论文到现代的 on-policy 蒸馏,视频总时长超过 7 小时。

为新书增加的新讲座!名义上是关于合成数据,但主要是对蒸馏文献的回顾,从 Hinton 2015 年的论文到当今的多教师 on-policy 蒸馏! 在我的后训练脑力倾泻中有 7.4 小时的视频内容,并且还在增加 :) 长时间盯着数学公式,讨论原始公式需要做出的 3-4 个核心更改,以便 on-policy 蒸馏如今能够像这样(以及在强化学习框架中)成为主流,这是一件有趣的事。 此外,我还包含了一些历史教训,讲述合成数据如何逐渐接管所有后训练数据研究(并非一直如此)!然后我对合宪AI、评分标准和其他流行方法进行了 101 复习。 00:00 合成数据的出现 10:50 师生知识蒸馏背景 24:47 On-policy 蒸馏(OPD、MOPD 和 OPSD) 37:11 合宪AI与人工智能反馈 45:50 作为奖励和结论的评分标准 当然,请观看 YouTube 等平台。
查看原文
查看缓存全文

缓存时间: 2026/06/23 16:12

新书讲座上线了!名义上是讲合成数据,但实际上更像是一次知识蒸馏文献的梳理——从Hinton 2015年的论文,一直讲到如今的多教师同策略蒸馏。

视频总长7.4小时,是我关于后训练思考的干货合集,而且还在不断增加中 :)

盯着数学公式看了足够久,梳理出从原始公式到如今主流的同策略蒸馏(以及RL框架)所需的3-4个核心改动,这个过程很有趣。

此外,我还穿插了一段历史课,讲合成数据如何逐步占领所有后训练数据研究(它并非一直如此)!然后做了一些入门级介绍,涉及宪法AI、评分准则和其他流行方法。

00:00 合成数据的兴起
10:50 师生知识蒸馏背景
24:47 同策略蒸馏(OPD、MOPD、OPSD)
37:11 宪法AI与AI反馈
45:50 作为奖励的评分准则及总结

当然,可以在YouTube等平台观看。

相似文章