knowledge-distillation

标签

Cards List
#knowledge-distillation

PHF:策略自适应自蒸馏中的特权隐式流

arXiv cs.AI · 6小时前 缓存

PHF提出了一种方法,在策略自适应自蒸馏过程中,将特权教师模型的隐藏状态轨迹蒸馏给学生模型,从而提升语言模型的推理性能。

0 人收藏 0 人点赞
#knowledge-distillation

DistilledGemma:多语言历史文章中人物-地点关系抽取的效率与准确性平衡

arXiv cs.CL · 6小时前 缓存

本文介绍了DistilledGemma,一个用于从多语言历史报纸文章中抽取人物-地点关系的系统,该系统采用从26B参数的Gemma教师模型到2.3B参数的学生模型的三阶段知识蒸馏流程,在HIPE-2026共享任务中实现了具有竞争力的准确性和效率。

0 人收藏 0 人点赞
#knowledge-distillation

使用大型语言模型标注实体匹配的训练数据

arXiv cs.CL · 6小时前 缓存

本文研究使用大型语言模型作为教师模型来标注实体匹配的训练数据,结果表明,在机器标注数据上训练的学生模型与在人工标注基准上训练的模型性能相当,并且具有显著的成本和速度优势。

0 人收藏 0 人点赞
#knowledge-distillation

SEAD: 通过熵引导监督的胜任力感知在线策略蒸馏

arXiv cs.CL · 6小时前 缓存

SEAD 提出了一种胜任力感知的在线策略蒸馏方法,利用熵在词元、训练阶段和提示三个层面引导监督,在 OLMo-3 上对六个数学基准测试实现了平均准确率提升 +4.8%。

0 人收藏 0 人点赞
#knowledge-distillation

大型语言模型教导视觉学生:细粒度概念知识的跨模态迁移

arXiv cs.AI · 昨天 缓存

本文介绍了LaViD框架,该框架通过生成多项选择题作为概念签名,将语义知识从纯语言大语言模型转移到视觉学生模型,实现了优越的细粒度分类性能和鲁棒性。

0 人收藏 0 人点赞
#knowledge-distillation

黑盒大型语言模型的知识蒸馏

Hacker News Top · 昨天 缓存

提出了一种名为 Proxy-KD 的新方法,通过代理模型从黑盒大型语言模型(如 GPT-4)中蒸馏知识到较小的模型,超越了传统的黑盒和白盒知识蒸馏技术。

0 人收藏 0 人点赞
#knowledge-distillation

@VukRosic99: 当小模型从大模型学习时,一半的教训被浪费了 设置:一个小的“学生”模型写出答案…

X AI KOLs Timeline · 昨天 缓存

该论文识别了语言模型在策略蒸馏中的位置偏差,即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏(IW-OPD)根据累积漂移对修正进行加权,提高了学习速度和最终性能。

0 人收藏 0 人点赞
#knowledge-distillation

让我们一起学习知识蒸馏!

Reddit r/ArtificialInteligence · 2天前

文章认为,批评知识蒸馏的前沿模型提供商是虚伪的,因为他们在版权诉讼中的法律辩护依赖于同样的原则,即不直接存储或接触数据。

0 人收藏 0 人点赞
#knowledge-distillation

@neural_avb: 有一篇关于On-Policy Distillation的绝佳文章。几个月前出现在HF上。

X AI KOLs Timeline · 2天前 缓存

一条推荐关于On-Policy Distillation文章的推文,该文章发表在Hugging Face上。

0 人收藏 0 人点赞
#knowledge-distillation

NebulaExp-8B:基于全尺度消融研究的经验性后训练流水线

arXiv cs.AI · 4天前 缓存

本文介绍了NebulaExp,一种针对8B规模大语言模型的透明消融驱动后训练流水线,涵盖SFT、GRPO强化学习和多教师蒸馏。它识别了数学推理与代码生成之间的关键权衡,并表明数据正确性过滤是一阶优化因素。

0 人收藏 0 人点赞
#knowledge-distillation

AsyncOPD:在策略蒸馏可以有多陈旧?

arXiv cs.LG · 6天前 缓存

本文提出 AsyncOPD,一种完全异步的在策略蒸馏流程,用于大语言模型,系统研究了陈旧策略数据的影响,并提出了估计器设计,使训练吞吐量提升 1.6-3.8 倍,同时保持相当的准确率。

0 人收藏 0 人点赞
#knowledge-distillation

基于块策略漂移门控的在线策略蒸馏

arXiv cs.LG · 6天前 缓存

本文提出了一种轻量级的基于块策略漂移门控方法,通过根据新旧学生概率变化对损失进行加权,改进了语言模型的在线策略蒸馏,在数学基准上取得了更高的推理准确性。

0 人收藏 0 人点赞
#knowledge-distillation

ARIA: 基于自适应区域重要性分配的条件扩散蒸馏

arXiv cs.LG · 6天前 缓存

本文介绍了ARIA框架,该框架自适应地在条件空间的各个区域分配训练资源,用于蒸馏条件扩散模型,从而提升在未见和低表征条件下的性能。

0 人收藏 0 人点赞
#knowledge-distillation

超越轨迹模仿:面向大模型推理的Strategy-Guided Policy Optimization

arXiv cs.AI · 6天前 缓存

介绍了针对大模型推理的Strategy-Guided Policy Optimization(SGPO),该方法用策略蒸馏替代轨迹模仿,提升了数学基准测试上的泛化能力。

0 人收藏 0 人点赞
#knowledge-distillation

@natolambert: 为新书增加的新讲座!名义上是关于合成数据,但主要是对蒸馏文献的回顾,从……

X AI KOLs Timeline · 6天前 缓存

Natolambert 宣布了一场新讲座,内容涵盖合成数据和蒸馏的历史,从 Hinton 2015 年的论文到现代的 on-policy 蒸馏,视频总时长超过 7 小时。

0 人收藏 0 人点赞
#knowledge-distillation

Lite Any Stereo V2:更快更强的高效零样本立体匹配

Hugging Face Daily Papers · 2026-06-23 缓存

Lite Any Stereo V2 提出了一种高效的立体匹配方法,通过优化的架构和训练策略(包括仅2D成本聚合框架和三阶段训练策略),在显著降低延迟的同时实现了最先进的精度。

0 人收藏 0 人点赞
#knowledge-distillation

@TheTuringPost: https://x.com/TheTuringPost/status/2068474648925216861

X AI KOLs Timeline · 2026-06-20 缓存

一篇关于知识蒸馏的教育性概述,涵盖其历史、核心概念(如softmax和温度)、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。

0 人收藏 0 人点赞
#knowledge-distillation

通过合成数据蒸馏实现高效的金融语言理解

arXiv cs.CL · 2026-06-18 缓存

介绍了一种利用合成数据进行蒸馏的金融情感分析框架,将知识从大型教师模型迁移到紧凑学生模型,并采用基于聚类的种子选择方法实现高效的低资源领域适应。

0 人收藏 0 人点赞
#knowledge-distillation

ResAware:通过资源特权蒸馏实现跨环境网站指纹识别

arXiv cs.LG · 2026-06-17 缓存

ResAware提出了一种资源感知的蒸馏框架,通过训练基于资源级别特征的教师模型,并将知识蒸馏到仅使用加密流量的学生模型,从而提升不同网络环境下网站指纹识别的鲁棒性,在时间漂移和其他扰动下取得了显著的性能提升。

0 人收藏 0 人点赞
#knowledge-distillation

PowerOPD: 使用有界幂变换稳定在线策略蒸馏

arXiv cs.LG · 2026-06-17 缓存

PowerOPD 引入了一种有界幂变换来稳定大型语言模型的在线策略蒸馏,在降低计算成本的同时,实现了准确性和样本效率的显著提升。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈