knowledge-distillation

标签

Cards List
#knowledge-distillation

大型语言模型教导视觉学生:细粒度概念知识的跨模态迁移

arXiv cs.AI · 昨天 缓存

本文介绍了LaViD框架,该框架通过生成多项选择题作为概念签名,将语义知识从纯语言大语言模型转移到视觉学生模型,实现了优越的细粒度分类性能和鲁棒性。

0 人收藏 0 人点赞
#knowledge-distillation

黑盒大型语言模型的知识蒸馏

Hacker News Top · 昨天 缓存

提出了一种名为 Proxy-KD 的新方法,通过代理模型从黑盒大型语言模型(如 GPT-4)中蒸馏知识到较小的模型,超越了传统的黑盒和白盒知识蒸馏技术。

0 人收藏 0 人点赞
#knowledge-distillation

@VukRosic99: 当小模型从大模型学习时,一半的教训被浪费了 设置:一个小的“学生”模型写出答案…

X AI KOLs Timeline · 昨天 缓存

该论文识别了语言模型在策略蒸馏中的位置偏差,即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏(IW-OPD)根据累积漂移对修正进行加权,提高了学习速度和最终性能。

0 人收藏 0 人点赞
#knowledge-distillation

让我们一起学习知识蒸馏!

Reddit r/ArtificialInteligence · 2天前

文章认为,批评知识蒸馏的前沿模型提供商是虚伪的,因为他们在版权诉讼中的法律辩护依赖于同样的原则,即不直接存储或接触数据。

0 人收藏 0 人点赞
#knowledge-distillation

@neural_avb: 有一篇关于On-Policy Distillation的绝佳文章。几个月前出现在HF上。

X AI KOLs Timeline · 2天前 缓存

一条推荐关于On-Policy Distillation文章的推文,该文章发表在Hugging Face上。

0 人收藏 0 人点赞
#knowledge-distillation

NebulaExp-8B:基于全尺度消融研究的经验性后训练流水线

arXiv cs.AI · 4天前 缓存

本文介绍了NebulaExp,一种针对8B规模大语言模型的透明消融驱动后训练流水线,涵盖SFT、GRPO强化学习和多教师蒸馏。它识别了数学推理与代码生成之间的关键权衡,并表明数据正确性过滤是一阶优化因素。

0 人收藏 0 人点赞
#knowledge-distillation

AsyncOPD:在策略蒸馏可以有多陈旧?

arXiv cs.LG · 6天前 缓存

本文提出 AsyncOPD,一种完全异步的在策略蒸馏流程,用于大语言模型,系统研究了陈旧策略数据的影响,并提出了估计器设计,使训练吞吐量提升 1.6-3.8 倍,同时保持相当的准确率。

0 人收藏 0 人点赞
#knowledge-distillation

基于块策略漂移门控的在线策略蒸馏

arXiv cs.LG · 6天前 缓存

本文提出了一种轻量级的基于块策略漂移门控方法,通过根据新旧学生概率变化对损失进行加权,改进了语言模型的在线策略蒸馏,在数学基准上取得了更高的推理准确性。

0 人收藏 0 人点赞
#knowledge-distillation

ARIA: 基于自适应区域重要性分配的条件扩散蒸馏

arXiv cs.LG · 6天前 缓存

本文介绍了ARIA框架,该框架自适应地在条件空间的各个区域分配训练资源,用于蒸馏条件扩散模型,从而提升在未见和低表征条件下的性能。

0 人收藏 0 人点赞
#knowledge-distillation

超越轨迹模仿:面向大模型推理的Strategy-Guided Policy Optimization

arXiv cs.AI · 6天前 缓存

介绍了针对大模型推理的Strategy-Guided Policy Optimization(SGPO),该方法用策略蒸馏替代轨迹模仿,提升了数学基准测试上的泛化能力。

0 人收藏 0 人点赞
#knowledge-distillation

@natolambert: 为新书增加的新讲座!名义上是关于合成数据,但主要是对蒸馏文献的回顾,从……

X AI KOLs Timeline · 6天前 缓存

Natolambert 宣布了一场新讲座,内容涵盖合成数据和蒸馏的历史,从 Hinton 2015 年的论文到现代的 on-policy 蒸馏,视频总时长超过 7 小时。

0 人收藏 0 人点赞
#knowledge-distillation

Lite Any Stereo V2:更快更强的高效零样本立体匹配

Hugging Face Daily Papers · 2026-06-23 缓存

Lite Any Stereo V2 提出了一种高效的立体匹配方法,通过优化的架构和训练策略(包括仅2D成本聚合框架和三阶段训练策略),在显著降低延迟的同时实现了最先进的精度。

0 人收藏 0 人点赞
#knowledge-distillation

@TheTuringPost: https://x.com/TheTuringPost/status/2068474648925216861

X AI KOLs Timeline · 2026-06-20 缓存

一篇关于知识蒸馏的教育性概述,涵盖其历史、核心概念(如softmax和温度)、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。

0 人收藏 0 人点赞
#knowledge-distillation

通过合成数据蒸馏实现高效的金融语言理解

arXiv cs.CL · 2026-06-18 缓存

介绍了一种利用合成数据进行蒸馏的金融情感分析框架,将知识从大型教师模型迁移到紧凑学生模型,并采用基于聚类的种子选择方法实现高效的低资源领域适应。

0 人收藏 0 人点赞
#knowledge-distillation

ResAware:通过资源特权蒸馏实现跨环境网站指纹识别

arXiv cs.LG · 2026-06-17 缓存

ResAware提出了一种资源感知的蒸馏框架,通过训练基于资源级别特征的教师模型,并将知识蒸馏到仅使用加密流量的学生模型,从而提升不同网络环境下网站指纹识别的鲁棒性,在时间漂移和其他扰动下取得了显著的性能提升。

0 人收藏 0 人点赞
#knowledge-distillation

PowerOPD: 使用有界幂变换稳定在线策略蒸馏

arXiv cs.LG · 2026-06-17 缓存

PowerOPD 引入了一种有界幂变换来稳定大型语言模型的在线策略蒸馏,在降低计算成本的同时,实现了准确性和样本效率的显著提升。

0 人收藏 0 人点赞
#knowledge-distillation

@liumengxinfly: 看到 Redis 的作者 X 上发声,说总有人反复说中国的模型是蒸馏出来的,是根本不懂机器学习。 之前看到有人说中国的模型是蒸馏出来的我还都会辩驳一番,后来实在是见到太多了,累了不想说了,干脆写出来算了。 很多人说蒸馏其实根本不知道蒸馏是…

X AI KOLs Timeline · 2026-06-16 缓存

本文详细解释了机器学习中知识蒸馏的技术原理,指出仅靠收集ChatGPT/Claude的输出对话无法实现有效蒸馏,因为缺少概率分布信息,并讨论了SFT和预训练中使用生成数据的局限性。

0 人收藏 0 人点赞
#knowledge-distillation

将示例提炼为任务指令:面向真实B2B对话的增强型上下文学习

arXiv cs.CL · 2026-06-16 缓存

本文介绍了用于分类真实B2B对话的Call Playbook数据集,并提出将示例提炼为紧凑、可解释的任务指令的方法,相比传统上下文学习实现了99%的Token压缩和高达7%的AUC提升。

0 人收藏 0 人点赞
#knowledge-distillation

最近发展区策略优化:教师存在于提示中,而非梯度

Hugging Face Daily Papers · 2026-06-16 缓存

最近发展区策略优化(ZPPO)通过使用重新构建的提示来改进知识蒸馏,帮助学生从正确和错误的回答中学习,尤其在小模型规模下提升了性能。

0 人收藏 0 人点赞
#knowledge-distillation

@snowboat84: https://x.com/snowboat84/status/2065215177029787705

X AI KOLs Timeline · 2026-06-11 缓存

本文是AI工程全景系列的中篇,详细介绍了推理优化、模型瘦身(量化、蒸馏、剪枝、MoE)和投机解码等核心技术,综述了从硬件到工程栈的最新进展。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈