标签
本文介绍了LaViD框架,该框架通过生成多项选择题作为概念签名,将语义知识从纯语言大语言模型转移到视觉学生模型,实现了优越的细粒度分类性能和鲁棒性。
提出了一种名为 Proxy-KD 的新方法,通过代理模型从黑盒大型语言模型(如 GPT-4)中蒸馏知识到较小的模型,超越了传统的黑盒和白盒知识蒸馏技术。
该论文识别了语言模型在策略蒸馏中的位置偏差,即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏(IW-OPD)根据累积漂移对修正进行加权,提高了学习速度和最终性能。
文章认为,批评知识蒸馏的前沿模型提供商是虚伪的,因为他们在版权诉讼中的法律辩护依赖于同样的原则,即不直接存储或接触数据。
一条推荐关于On-Policy Distillation文章的推文,该文章发表在Hugging Face上。
本文介绍了NebulaExp,一种针对8B规模大语言模型的透明消融驱动后训练流水线,涵盖SFT、GRPO强化学习和多教师蒸馏。它识别了数学推理与代码生成之间的关键权衡,并表明数据正确性过滤是一阶优化因素。
本文提出 AsyncOPD,一种完全异步的在策略蒸馏流程,用于大语言模型,系统研究了陈旧策略数据的影响,并提出了估计器设计,使训练吞吐量提升 1.6-3.8 倍,同时保持相当的准确率。
本文提出了一种轻量级的基于块策略漂移门控方法,通过根据新旧学生概率变化对损失进行加权,改进了语言模型的在线策略蒸馏,在数学基准上取得了更高的推理准确性。
本文介绍了ARIA框架,该框架自适应地在条件空间的各个区域分配训练资源,用于蒸馏条件扩散模型,从而提升在未见和低表征条件下的性能。
介绍了针对大模型推理的Strategy-Guided Policy Optimization(SGPO),该方法用策略蒸馏替代轨迹模仿,提升了数学基准测试上的泛化能力。
Natolambert 宣布了一场新讲座,内容涵盖合成数据和蒸馏的历史,从 Hinton 2015 年的论文到现代的 on-policy 蒸馏,视频总时长超过 7 小时。
Lite Any Stereo V2 提出了一种高效的立体匹配方法,通过优化的架构和训练策略(包括仅2D成本聚合框架和三阶段训练策略),在显著降低延迟的同时实现了最先进的精度。
一篇关于知识蒸馏的教育性概述,涵盖其历史、核心概念(如softmax和温度)、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。
介绍了一种利用合成数据进行蒸馏的金融情感分析框架,将知识从大型教师模型迁移到紧凑学生模型,并采用基于聚类的种子选择方法实现高效的低资源领域适应。
ResAware提出了一种资源感知的蒸馏框架,通过训练基于资源级别特征的教师模型,并将知识蒸馏到仅使用加密流量的学生模型,从而提升不同网络环境下网站指纹识别的鲁棒性,在时间漂移和其他扰动下取得了显著的性能提升。
PowerOPD 引入了一种有界幂变换来稳定大型语言模型的在线策略蒸馏,在降低计算成本的同时,实现了准确性和样本效率的显著提升。
本文详细解释了机器学习中知识蒸馏的技术原理,指出仅靠收集ChatGPT/Claude的输出对话无法实现有效蒸馏,因为缺少概率分布信息,并讨论了SFT和预训练中使用生成数据的局限性。
本文介绍了用于分类真实B2B对话的Call Playbook数据集,并提出将示例提炼为紧凑、可解释的任务指令的方法,相比传统上下文学习实现了99%的Token压缩和高达7%的AUC提升。
最近发展区策略优化(ZPPO)通过使用重新构建的提示来改进知识蒸馏,帮助学生从正确和错误的回答中学习,尤其在小模型规模下提升了性能。
本文是AI工程全景系列的中篇,详细介绍了推理优化、模型瘦身(量化、蒸馏、剪枝、MoE)和投机解码等核心技术,综述了从硬件到工程栈的最新进展。