标签
PHF提出了一种方法,在策略自适应自蒸馏过程中,将特权教师模型的隐藏状态轨迹蒸馏给学生模型,从而提升语言模型的推理性能。
本文介绍了DistilledGemma,一个用于从多语言历史报纸文章中抽取人物-地点关系的系统,该系统采用从26B参数的Gemma教师模型到2.3B参数的学生模型的三阶段知识蒸馏流程,在HIPE-2026共享任务中实现了具有竞争力的准确性和效率。
本文研究使用大型语言模型作为教师模型来标注实体匹配的训练数据,结果表明,在机器标注数据上训练的学生模型与在人工标注基准上训练的模型性能相当,并且具有显著的成本和速度优势。
SEAD 提出了一种胜任力感知的在线策略蒸馏方法,利用熵在词元、训练阶段和提示三个层面引导监督,在 OLMo-3 上对六个数学基准测试实现了平均准确率提升 +4.8%。
本文介绍了LaViD框架,该框架通过生成多项选择题作为概念签名,将语义知识从纯语言大语言模型转移到视觉学生模型,实现了优越的细粒度分类性能和鲁棒性。
提出了一种名为 Proxy-KD 的新方法,通过代理模型从黑盒大型语言模型(如 GPT-4)中蒸馏知识到较小的模型,超越了传统的黑盒和白盒知识蒸馏技术。
该论文识别了语言模型在策略蒸馏中的位置偏差,即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏(IW-OPD)根据累积漂移对修正进行加权,提高了学习速度和最终性能。
文章认为,批评知识蒸馏的前沿模型提供商是虚伪的,因为他们在版权诉讼中的法律辩护依赖于同样的原则,即不直接存储或接触数据。
一条推荐关于On-Policy Distillation文章的推文,该文章发表在Hugging Face上。
本文介绍了NebulaExp,一种针对8B规模大语言模型的透明消融驱动后训练流水线,涵盖SFT、GRPO强化学习和多教师蒸馏。它识别了数学推理与代码生成之间的关键权衡,并表明数据正确性过滤是一阶优化因素。
本文提出 AsyncOPD,一种完全异步的在策略蒸馏流程,用于大语言模型,系统研究了陈旧策略数据的影响,并提出了估计器设计,使训练吞吐量提升 1.6-3.8 倍,同时保持相当的准确率。
本文提出了一种轻量级的基于块策略漂移门控方法,通过根据新旧学生概率变化对损失进行加权,改进了语言模型的在线策略蒸馏,在数学基准上取得了更高的推理准确性。
本文介绍了ARIA框架,该框架自适应地在条件空间的各个区域分配训练资源,用于蒸馏条件扩散模型,从而提升在未见和低表征条件下的性能。
介绍了针对大模型推理的Strategy-Guided Policy Optimization(SGPO),该方法用策略蒸馏替代轨迹模仿,提升了数学基准测试上的泛化能力。
Natolambert 宣布了一场新讲座,内容涵盖合成数据和蒸馏的历史,从 Hinton 2015 年的论文到现代的 on-policy 蒸馏,视频总时长超过 7 小时。
Lite Any Stereo V2 提出了一种高效的立体匹配方法,通过优化的架构和训练策略(包括仅2D成本聚合框架和三阶段训练策略),在显著降低延迟的同时实现了最先进的精度。
一篇关于知识蒸馏的教育性概述,涵盖其历史、核心概念(如softmax和温度)、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。
介绍了一种利用合成数据进行蒸馏的金融情感分析框架,将知识从大型教师模型迁移到紧凑学生模型,并采用基于聚类的种子选择方法实现高效的低资源领域适应。
ResAware提出了一种资源感知的蒸馏框架,通过训练基于资源级别特征的教师模型,并将知识蒸馏到仅使用加密流量的学生模型,从而提升不同网络环境下网站指纹识别的鲁棒性,在时间漂移和其他扰动下取得了显著的性能提升。
PowerOPD 引入了一种有界幂变换来稳定大型语言模型的在线策略蒸馏,在降低计算成本的同时,实现了准确性和样本效率的显著提升。