@zhaisf: 这是 @geoffreyhinton 提出的蒸馏方法的一些神奇结果，当我第一次看到它们时，真的让我震惊，而且……

X AI KOLs Following 2026/06/07 03:37 论文

distillation neural-networks knowledge-distillation robustness research paper

摘要

本文讨论了模型蒸馏对训练分布的惊人鲁棒性，即使与目标分布的重叠很小，以及其对在线/离线策略蒸馏的影响。

这些是 @geoffreyhinton 提出的蒸馏方法的一些神奇结果，当我第一次看到它们时，真的让我震惊，而且老实说，直到今天我仍然没有完全理解它 https://ttic.edu/dl/dark14.pdf。 TLDR 版本：蒸馏对训练分布具有令人难以置信的鲁棒性，即使它与目标分布几乎没有或完全没有重叠。这也为当前热门的在线 vs 离线策略蒸馏话题提供了一个有趣的视角——尤其是为什么尽管两者差异（很大），却都是有效的选择。

查看原文

查看缓存全文

缓存时间: 2026/06/08 11:19

这是 @geoffreyhinton 蒸馏方法带来的一些神奇结果，我第一次看到时真的震惊了，老实说到今天我还没完全搞懂：https://ttic.edu/dl/dark14.pdf。简而言之：蒸馏在训练分布上具有令人难以置信的稳健性，即使训练分布与目标分布几乎没有重叠。这也为当下热门的在线与离线蒸馏话题提供了一个有趣的视角——特别解释了为什么尽管两者存在（巨大）差异，却都是可行的选择。— 来源：https://www.ttic.edu/dl/dark14.pdf

@zhaisf: 这是 @geoffreyhinton 提出的蒸馏方法的一些神奇结果，当我第一次看到它们时，真的让我震惊，而且……

相似文章

分布视角下的 SFT、RL 与 On-Policy Distillation（19 分钟阅读）

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

揭秘同策略蒸馏：其益处、危害及原因

同策略蒸馏（5分钟阅读）

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

提交意见反馈