@zhaisf: 这是 @geoffreyhinton 提出的蒸馏方法的一些神奇结果,当我第一次看到它们时,真的让我震惊,而且……

X AI KOLs Following 论文

摘要

本文讨论了模型蒸馏对训练分布的惊人鲁棒性,即使与目标分布的重叠很小,以及其对在线/离线策略蒸馏的影响。

这些是 @geoffreyhinton 提出的蒸馏方法的一些神奇结果,当我第一次看到它们时,真的让我震惊,而且老实说,直到今天我仍然没有完全理解它 https://ttic.edu/dl/dark14.pdf。 TLDR 版本:蒸馏对训练分布具有令人难以置信的鲁棒性,即使它与目标分布几乎没有或完全没有重叠。 这也为当前热门的在线 vs 离线策略蒸馏话题提供了一个有趣的视角——尤其是为什么尽管两者差异(很大),却都是有效的选择。
查看原文
查看缓存全文

缓存时间: 2026/06/08 11:19

这是 @geoffreyhinton 蒸馏方法带来的一些神奇结果,我第一次看到时真的震惊了,老实说到今天我还没完全搞懂:https://ttic.edu/dl/dark14.pdf。简而言之:蒸馏在训练分布上具有令人难以置信的稳健性,即使训练分布与目标分布几乎没有重叠。这也为当下热门的在线与离线蒸馏话题提供了一个有趣的视角——特别解释了为什么尽管两者存在(巨大)差异,却都是可行的选择。— 来源:https://www.ttic.edu/dl/dark14.pdf

相似文章

揭秘同策略蒸馏:其益处、危害及原因

Hugging Face Daily Papers

本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。

同策略蒸馏(5分钟阅读)

TLDR AI

本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

Reddit r/MachineLearning

Hugging Face的Niels介绍了On-policy Distillation (OPD),这是一种关键的后训练技术,用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode,并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。