@neural_avb: 如果你对 On Policy Distillation 感兴趣，可以看看这个特定仓库。有人整理了一份精选合集…

X AI KOLs Timeline 2026/05/29 13:28 工具

摘要

针对 On Policy Distillation 的精选论文和工具合集，分类并注释，附有入门指南部分，通过 GitHub 仓库分享。

如果你对 On Policy Distillation 感兴趣，可以看看这个特定仓库。有人整理了一份分类并注释过的论文和工具精选合集。还附带了一个“入门指南”部分。https://t.co/nwVgFdoLDY

查看原文

查看缓存全文

缓存时间: 2026/05/29 14:10

如果大家对“在线策略蒸馏”（On Policy Distillation）感兴趣，可以来看看这个专门的仓库。

有人整理了一份分类标注的论文与工具精选集，还附带了“快速上手”指南。https://t.co/nwVgFdoLDY

pradheep (@pradheepraop): 现在开始认真深入研究 opd/opsd（在线策略蒸馏/在线策略模仿学习）了。

感谢 @neural_avb 和 @chrisliu298 整理这些超实用的资源。

欢迎继续推荐 🙂

相似文章

On-policy distillation: 在PapersWithCode上最热门术语之一 [R]

Reddit r/MachineLearning

Hugging Face的Niels介绍了On-policy Distillation (OPD)，这是一种关键的后训练技术，用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode，并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。

@NielsRogge: 当前AI领域最热门的术语之一是"On-policy distillation"。这是一种后训练技术，其中学生模型…

X AI KOLs Timeline

On-policy distillation被强调为一种热门后训练技术，结合了蒸馏和在线RL，现已列入PapersWithCode，有183篇引用论文。

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

Hugging Face Daily Papers

本文对大语言模型的在线策略蒸馏进行了全面的实证研究，识别了分布不匹配和优化不稳定等故障机制，并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。

@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文，按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…

X AI KOLs Timeline

介绍 AwesomeOPD，一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。

OPRD：在策略表示蒸馏