on-policy-distillation

#on-policy-distillation

学会预见：揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL ↗ · 昨天缓存

本文研究了大型语言模型中 On-Policy 蒸馏（OPD）效率背后的参数级机制，将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD，一种即插即用方法，可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

0 人收藏 0 人点赞

#on-policy-distillation

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

Hugging Face Daily Papers ↗ · 3天前缓存

本文对大语言模型的在线策略蒸馏进行了全面的实证研究，识别了分布不匹配和优化不稳定等故障机制，并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。

0 人收藏 0 人点赞

#on-policy-distillation

揭秘同策略蒸馏：其益处、危害及原因

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了一种无需训练的框架，用于分析推理模型在逐token级别上的蒸馏信号。研究揭示，蒸馏引导在错误推理路径上更为有效，且其效果取决于学生模型的能力及任务上下文。

0 人收藏 0 人点赞

#on-policy-distillation

分布视角下的 SFT、RL 与 On-Policy Distillation（19 分钟阅读）

TLDR AI ↗ · 3天前缓存

本文从分布视角分析语言模型的后训练方法，对比 SFT、RL 和 On-Policy Distillation 如何重塑模型分布，及其对灾难性遗忘等现象的影响。

0 人收藏 0 人点赞

#on-policy-distillation

@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文，按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…

X AI KOLs Timeline ↗ · 4天前缓存

介绍 AwesomeOPD，一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。

0 人收藏 0 人点赞

#on-policy-distillation