on-policy-distillation

#on-policy-distillation

@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文，按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…

X AI KOLs Timeline ↗ · 18小时前缓存

介绍 AwesomeOPD，一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。

0 人收藏 0 人点赞

#on-policy-distillation

超越 SFT 到 RL：多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending ↗ · 2026-05-01 缓存

本文介绍了 PRISM，一种在监督微调（SFT）和强化学习（RL）之间插入分布对齐阶段的方法，旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家（MoE）判别器的黑盒对抗博弈，提升了如 Qwen3-VL 等模型的 RLVR 性能。

0 人收藏 0 人点赞

#on-policy-distillation

确定性的幻觉：解耦策略蒸馏中的能力与校准

Hugging Face Daily Papers ↗ · 2026-04-18 缓存

本文发现语言模型中的策略蒸馏（OPD）因训练与部署信息不匹配导致严重过度自信，提出校准感知框架 CaOPD，在提升性能的同时显著增强置信度可靠性。

0 人收藏 0 人点赞

on-policy-distillation

@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文，按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…

超越 SFT 到 RL：多模态强化学习中的黑盒策略蒸馏预对齐

确定性的幻觉：解耦策略蒸馏中的能力与校准

提交意见反馈