knowledge-distillation

#knowledge-distillation

大型语言模型教导视觉学生：细粒度概念知识的跨模态迁移

arXiv cs.AI ↗ · 昨天缓存

本文介绍了LaViD框架，该框架通过生成多项选择题作为概念签名，将语义知识从纯语言大语言模型转移到视觉学生模型，实现了优越的细粒度分类性能和鲁棒性。

0 人收藏 0 人点赞

#knowledge-distillation

黑盒大型语言模型的知识蒸馏

Hacker News Top ↗ · 昨天缓存

提出了一种名为 Proxy-KD 的新方法，通过代理模型从黑盒大型语言模型（如 GPT-4）中蒸馏知识到较小的模型，超越了传统的黑盒和白盒知识蒸馏技术。

0 人收藏 0 人点赞

#knowledge-distillation

@VukRosic99: 当小模型从大模型学习时，一半的教训被浪费了设置：一个小的“学生”模型写出答案…

X AI KOLs Timeline ↗ · 昨天缓存

该论文识别了语言模型在策略蒸馏中的位置偏差，即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏（IW-OPD）根据累积漂移对修正进行加权，提高了学习速度和最终性能。

0 人收藏 0 人点赞

#knowledge-distillation

让我们一起学习知识蒸馏！

Reddit r/ArtificialInteligence ↗ · 2天前

文章认为，批评知识蒸馏的前沿模型提供商是虚伪的，因为他们在版权诉讼中的法律辩护依赖于同样的原则，即不直接存储或接触数据。

0 人收藏 0 人点赞

#knowledge-distillation

@neural_avb: 有一篇关于On-Policy Distillation的绝佳文章。几个月前出现在HF上。

X AI KOLs Timeline ↗ · 2天前缓存

一条推荐关于On-Policy Distillation文章的推文，该文章发表在Hugging Face上。

0 人收藏 0 人点赞

#knowledge-distillation

NebulaExp-8B：基于全尺度消融研究的经验性后训练流水线

arXiv cs.AI ↗ · 4天前缓存

本文介绍了NebulaExp，一种针对8B规模大语言模型的透明消融驱动后训练流水线，涵盖SFT、GRPO强化学习和多教师蒸馏。它识别了数学推理与代码生成之间的关键权衡，并表明数据正确性过滤是一阶优化因素。

0 人收藏 0 人点赞

#knowledge-distillation

AsyncOPD：在策略蒸馏可以有多陈旧？

arXiv cs.LG ↗ · 6天前缓存

本文提出 AsyncOPD，一种完全异步的在策略蒸馏流程，用于大语言模型，系统研究了陈旧策略数据的影响，并提出了估计器设计，使训练吞吐量提升 1.6-3.8 倍，同时保持相当的准确率。

0 人收藏 0 人点赞

#knowledge-distillation

基于块策略漂移门控的在线策略蒸馏

arXiv cs.LG ↗ · 6天前缓存

本文提出了一种轻量级的基于块策略漂移门控方法，通过根据新旧学生概率变化对损失进行加权，改进了语言模型的在线策略蒸馏，在数学基准上取得了更高的推理准确性。

0 人收藏 0 人点赞

#knowledge-distillation

ARIA: 基于自适应区域重要性分配的条件扩散蒸馏

arXiv cs.LG ↗ · 6天前缓存

本文介绍了ARIA框架，该框架自适应地在条件空间的各个区域分配训练资源，用于蒸馏条件扩散模型，从而提升在未见和低表征条件下的性能。

0 人收藏 0 人点赞

#knowledge-distillation

超越轨迹模仿：面向大模型推理的Strategy-Guided Policy Optimization

arXiv cs.AI ↗ · 6天前缓存

介绍了针对大模型推理的Strategy-Guided Policy Optimization（SGPO），该方法用策略蒸馏替代轨迹模仿，提升了数学基准测试上的泛化能力。

0 人收藏 0 人点赞

#knowledge-distillation

@natolambert: 为新书增加的新讲座！名义上是关于合成数据，但主要是对蒸馏文献的回顾，从……

X AI KOLs Timeline ↗ · 6天前缓存

Natolambert 宣布了一场新讲座，内容涵盖合成数据和蒸馏的历史，从 Hinton 2015 年的论文到现代的 on-policy 蒸馏，视频总时长超过 7 小时。

0 人收藏 0 人点赞

#knowledge-distillation

Lite Any Stereo V2：更快更强的高效零样本立体匹配

Hugging Face Daily Papers ↗ · 2026-06-23 缓存

Lite Any Stereo V2 提出了一种高效的立体匹配方法，通过优化的架构和训练策略（包括仅2D成本聚合框架和三阶段训练策略），在显著降低延迟的同时实现了最先进的精度。

0 人收藏 0 人点赞

#knowledge-distillation

@TheTuringPost: https://x.com/TheTuringPost/status/2068474648925216861

X AI KOLs Timeline ↗ · 2026-06-20 缓存

一篇关于知识蒸馏的教育性概述，涵盖其历史、核心概念（如softmax和温度）、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。

0 人收藏 0 人点赞

#knowledge-distillation

通过合成数据蒸馏实现高效的金融语言理解

arXiv cs.CL ↗ · 2026-06-18 缓存

介绍了一种利用合成数据进行蒸馏的金融情感分析框架，将知识从大型教师模型迁移到紧凑学生模型，并采用基于聚类的种子选择方法实现高效的低资源领域适应。

0 人收藏 0 人点赞

#knowledge-distillation

ResAware：通过资源特权蒸馏实现跨环境网站指纹识别

arXiv cs.LG ↗ · 2026-06-17 缓存

ResAware提出了一种资源感知的蒸馏框架，通过训练基于资源级别特征的教师模型，并将知识蒸馏到仅使用加密流量的学生模型，从而提升不同网络环境下网站指纹识别的鲁棒性，在时间漂移和其他扰动下取得了显著的性能提升。

0 人收藏 0 人点赞

#knowledge-distillation

PowerOPD: 使用有界幂变换稳定在线策略蒸馏

arXiv cs.LG ↗ · 2026-06-17 缓存

PowerOPD 引入了一种有界幂变换来稳定大型语言模型的在线策略蒸馏，在降低计算成本的同时，实现了准确性和样本效率的显著提升。

0 人收藏 0 人点赞

#knowledge-distillation

@liumengxinfly: 看到 Redis 的作者 X 上发声，说总有人反复说中国的模型是蒸馏出来的，是根本不懂机器学习。之前看到有人说中国的模型是蒸馏出来的我还都会辩驳一番，后来实在是见到太多了，累了不想说了，干脆写出来算了。很多人说蒸馏其实根本不知道蒸馏是…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

本文详细解释了机器学习中知识蒸馏的技术原理，指出仅靠收集ChatGPT/Claude的输出对话无法实现有效蒸馏，因为缺少概率分布信息，并讨论了SFT和预训练中使用生成数据的局限性。

0 人收藏 0 人点赞

#knowledge-distillation

将示例提炼为任务指令：面向真实B2B对话的增强型上下文学习

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了用于分类真实B2B对话的Call Playbook数据集，并提出将示例提炼为紧凑、可解释的任务指令的方法，相比传统上下文学习实现了99%的Token压缩和高达7%的AUC提升。

0 人收藏 0 人点赞

#knowledge-distillation

最近发展区策略优化：教师存在于提示中，而非梯度

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

最近发展区策略优化（ZPPO）通过使用重新构建的提示来改进知识蒸馏，帮助学生从正确和错误的回答中学习，尤其在小模型规模下提升了性能。

0 人收藏 0 人点赞

#knowledge-distillation

@snowboat84: https://x.com/snowboat84/status/2065215177029787705

X AI KOLs Timeline ↗ · 2026-06-11 缓存

本文是AI工程全景系列的中篇，详细介绍了推理优化、模型瘦身（量化、蒸馏、剪枝、MoE）和投机解码等核心技术，综述了从硬件到工程栈的最新进展。

0 人收藏 0 人点赞

knowledge-distillation

提交意见反馈