on-policy-distillation

标签

Cards List
#on-policy-distillation

学会预见:揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL · 昨天 缓存

本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

0 人收藏 0 人点赞
#on-policy-distillation

在线策略蒸馏的多重面貌:陷阱、机制与解决方案

Hugging Face Daily Papers · 3天前 缓存

本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。

0 人收藏 0 人点赞
#on-policy-distillation

揭秘同策略蒸馏:其益处、危害及原因

Hugging Face Daily Papers · 3天前 缓存

本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。

0 人收藏 0 人点赞
#on-policy-distillation

分布视角下的 SFT、RL 与 On-Policy Distillation(19 分钟阅读)

TLDR AI · 3天前 缓存

本文从分布视角分析语言模型的后训练方法,对比 SFT、RL 和 On-Policy Distillation 如何重塑模型分布,及其对灾难性遗忘等现象的影响。

0 人收藏 0 人点赞
#on-policy-distillation

@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文,按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…

X AI KOLs Timeline · 4天前 缓存

介绍 AwesomeOPD,一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。

0 人收藏 0 人点赞
#on-policy-distillation

在策略蒸馏中近确定性结构化输出的外推悬崖

Hugging Face Daily Papers · 5天前 缓存

本文识别了在策略蒸馏中结合奖励外推的一个安全阈值,超过该阈值后,结构化输出任务会丢失格式保持能力。实证验证表明,在该阈值以下运行,1.7B学生模型能够在Amazon Fashion任务上以五分之一的参数量匹配8B SFT基线。

0 人收藏 0 人点赞
#on-policy-distillation

Flow-OPD:用于流匹配模型的对策蒸馏

Hugging Face Daily Papers · 6天前 缓存

Flow-OPD 是一篇研究论文,介绍了一种用于流匹配文生图模型的两阶段对策蒸馏框架。基于 Stable Diffusion 3.5 Medium,该框架显著提升了生成质量和对齐指标。

0 人收藏 0 人点赞
#on-policy-distillation

超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending · 2026-05-01 缓存

本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。

0 人收藏 0 人点赞
#on-policy-distillation

确定性的幻觉:解耦策略蒸馏中的能力与校准

Hugging Face Daily Papers · 2026-04-18 缓存

本文发现语言模型中的策略蒸馏(OPD)因训练与部署信息不匹配导致严重过度自信,提出校准感知框架 CaOPD,在提升性能的同时显著增强置信度可靠性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈