@neural_avb: 如果你对 On Policy Distillation 感兴趣,可以看看这个特定仓库。有人整理了一份精选合集…
摘要
针对 On Policy Distillation 的精选论文和工具合集,分类并注释,附有入门指南部分,通过 GitHub 仓库分享。
查看缓存全文
缓存时间: 2026/05/29 14:10
如果大家对“在线策略蒸馏”(On Policy Distillation)感兴趣,可以来看看这个专门的仓库。
有人整理了一份分类标注的论文与工具精选集,还附带了“快速上手”指南。https://t.co/nwVgFdoLDY
pradheep (@pradheepraop): 现在开始认真深入研究 opd/opsd(在线策略蒸馏/在线策略模仿学习)了。
感谢 @neural_avb 和 @chrisliu298 整理这些超实用的资源。
欢迎继续推荐 🙂
相似文章
On-policy distillation: 在PapersWithCode上最热门术语之一 [R]
Hugging Face的Niels介绍了On-policy Distillation (OPD),这是一种关键的后训练技术,用于Qwen 3.6/3.7、GLM-5.1和DeepSeek-V4等模型。该技术现已收录于PapersWithCode,并附有Sasha Rush和Dwarkesh Patel的白板讲解链接。
@NielsRogge: 当前AI领域最热门的术语之一是"On-policy distillation"。这是一种后训练技术,其中学生模型…
On-policy distillation被强调为一种热门后训练技术,结合了蒸馏和在线RL,现已列入PapersWithCode,有183篇引用论文。
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文,按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…
介绍 AwesomeOPD,一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。
OPRD:在策略表示蒸馏
OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。