self-distillation

#self-distillation

@QingQ77: 收集 LLM/VLM/Agent 在训练时用 On-Policy Distillation 和 Self-Distillation 的开源代码和论文，按教师来源、监督信号、rollout 用法、训练阶段四个维度打标签。 https://g…

X AI KOLs Timeline ↗ · 昨天缓存

介绍 AwesomeOPD，一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。

0 人收藏 0 人点赞

#self-distillation

D-OPSD：面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏

Hugging Face Daily Papers ↗ · 4天前缓存

本文介绍了 D-OPSD，一种用于步骤蒸馏扩散模型的新型训练范式，能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下，学习新概念或新风格。

0 人收藏 0 人点赞

#self-distillation

自蒸馏作为大语言模型的性能恢复机制：对抗压缩和灾难性遗忘

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了自蒸馏微调（SDFT）作为大语言模型性能恢复机制，用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐（CKA）提供了理论证明，表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐，从而有效恢复丧失的能力。

0 人收藏 0 人点赞

#self-distillation

为什么微调会导致幻觉及其解决方案

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文研究了监督微调（SFT）如何通过导致知识退化而增加大语言模型的幻觉问题，并提出了一种基于自蒸馏的方法来缓解这一问题，同时保留预训练阶段获得的既有事实知识。作者将语义干涉识别为SFT引起幻觉的主要机制，并演示了包括参数冻结和自蒸馏在内的解决方案。

0 人收藏 0 人点赞

#self-distillation

MARCO：探索语义对应中未见空间的航行器

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

MARCO 提出一种轻量高速的语义对应模型，通过由粗到精的目标与自蒸馏框架结合 DINOv2，在未知关键点上也达到 SOTA 精度与泛化能力。

0 人收藏 0 人点赞

#self-distillation