self-distillation

标签

Cards List
#self-distillation

@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文,按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…

X AI KOLs Timeline · 昨天 缓存

介绍 AwesomeOPD,一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。

0 人收藏 0 人点赞
#self-distillation

D-OPSD:面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏

Hugging Face Daily Papers · 4天前 缓存

本文介绍了 D-OPSD,一种用于步骤蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下,学习新概念或新风格。

0 人收藏 0 人点赞
#self-distillation

自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘

arXiv cs.CL · 2026-04-20 缓存

本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。

0 人收藏 0 人点赞
#self-distillation

为什么微调会导致幻觉及其解决方案

arXiv cs.CL · 2026-04-20 缓存

本论文研究了监督微调(SFT)如何通过导致知识退化而增加大语言模型的幻觉问题,并提出了一种基于自蒸馏的方法来缓解这一问题,同时保留预训练阶段获得的既有事实知识。作者将语义干涉识别为SFT引起幻觉的主要机制,并演示了包括参数冻结和自蒸馏在内的解决方案。

0 人收藏 0 人点赞
#self-distillation

MARCO:探索语义对应中未见空间的航行器

Hugging Face Daily Papers · 2026-04-20 缓存

MARCO 提出一种轻量高速的语义对应模型,通过由粗到精的目标与自蒸馏框架结合 DINOv2,在未知关键点上也达到 SOTA 精度与泛化能力。

0 人收藏 0 人点赞
#self-distillation

Self-Distillation Zero:自我修订将二元奖励转化为密集监督

Hugging Face Daily Papers · 2026-04-13 缓存

Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈