MixSD:混合上下文自蒸馏知识注入

Hugging Face Daily Papers 论文

摘要

MixSD 提出了一种面向语言模型知识注入的自蒸馏方法,该方法将监督信号与模型自身的原生分布对齐,从而减少微调过程中的灾难性遗忘。它能够实现近乎完美的记忆,同时保留高达 100% 的基础能力,远超标准 SFT。

监督微调(SFT)被广泛用于向语言模型注入新知识,但它常常损害预训练能力,如推理和通用领域性能。我们认为这种遗忘的产生是因为来自人类或外部系统的微调目标与模型的自回归分布存在偏差,迫使优化器去模仿低概率的 token 序列。为解决这一问题,我们提出了 MixSD,一种无需外部教师的简单方法,用于分布对齐的知识注入。与在固定目标上训练不同,MixSD 通过混合基础模型本身的两个条件分布来动态构建监督信号:一个专家条件,它能在上下文中观察到注入的事实;一个朴素条件,它反映模型的原始先验。由此产生的监督序列既保留了事实学习信号,又显著更接近基础模型的分布。我们在两个合成语料库上评估了 MixSD,这些语料库是为在受控环境中研究事实回忆和算术函数习得而构建的,同时使用了开放域事实问答和知识编辑的既有基准。在多个模型规模和设置下,与 SFT 和在线策略自蒸馏基线相比,MixSD 始终实现了更好的记忆-保留权衡,在保持近乎完美的训练准确率的同时,保留了基础模型高达 100% 的预留能力,而标准 SFT 仅保留 1%。我们进一步证明,MixSD 在基础模型下生成了显著更低的负对数似然(NLL)监督目标,并减少了沿 Fisher 敏感参数方向的有害移动。这些结果表明,将监督信号与模型的原生生成分布对齐是一种简单有效的知识注入原则,能够缓解灾难性遗忘。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:30

论文页面 - MixSD: 混合上下文自蒸馏用于知识注入

来源:https://huggingface.co/papers/2605.16865

摘要

MixSD 通过使监督信号与模型的原生生成分布对齐来解决语言模型中的知识注入问题,从而减少微调过程中的灾难性遗忘。

监督微调(SFT)广泛用于向语言模型注入新知识,但往往会损害预训练能力,如推理和通用领域性能。我们认为这种遗忘的产生是因为来自人类或外部系统的微调目标与模型的自回归分布存在偏差,迫使优化器去模仿低概率的 token 序列。为了解决这个问题,我们提出了 MixSD,一种无需外部教师、基于分布对齐的简单知识注入方法。MixSD 并非在固定目标上训练,而是动态构建监督信号:它混合基础模型自身两种条件生成下的 token——一种是包含注入事实上下文的专家条件,另一种是反映模型原始先验的朴素条件。由此产生的监督序列保留了事实学习信号,同时更贴近基础模型的分布。我们在两个合成语料库上评估 MixSD,这两个语料库是为在受控环境下研究事实回忆和算术函数习得而构建的,此外还在开放域事实问答和知识编辑的成熟基准上进行评估。在多个模型规模和设置下,与 SFT 和在线自蒸馏基线相比,MixSD 始终能实现更好的记忆-保留权衡:在保持近完美的训练准确率的同时,最多可保留基础模型 100% 的 hold-out 能力,而标准 SFT 仅能保留 1%。我们进一步证明,MixSD 在基础模型下产生的监督目标具有显著更低的负对数似然,并减少了沿 Fisher 敏感参数方向的有害移动。这些结果表明,使监督信号与模型的原生生成分布对齐是一种简单而有效的知识注入原则,能够缓解灾难性遗忘。

查看 arXiv 页面 (https://arxiv.org/abs/2605.16865)
查看 PDF (https://arxiv.org/pdf/2605.16865)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.16865)

在你的代理中获取这篇论文:

hf papers read 2605\.16865

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接这篇论文

在模型的 README.md 中引用 arxiv.org/abs/2605.16865 以从本页链接它。

引用本文的数据集0

没有数据集链接这篇论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.16865 以从本页链接它。

引用本文的 Space0

没有 Space 链接这篇论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.16865 以从本页链接它。

包含本文的收藏0

没有收藏包含这篇论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以从本页链接它。

相似文章

自蒸馏实现持续学习 [pdf]

Hacker News Top

介绍了自蒸馏微调(SDFT),一种通过示范实现同策略学习的方法,能够在不发生灾难性遗忘的情况下实现持续学习,性能优于监督微调。

UniSD:面向大型语言模型的统一自蒸馏框架

Hugging Face Daily Papers

本文提出了 UniSD,这是一种用于适应大型语言模型的统一自蒸馏框架,整合了监督可靠性、表征对齐和训练稳定性的机制。实验结果表明,UniSD 在多个基准测试中均优于基础模型和现有基线方法。

自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘

arXiv cs.CL

本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

Hugging Face Daily Papers

提出反自蒸馏(AntiSD),该方法逆转自蒸馏中的知识转移方向,以提高数学推理的效率和准确率,在4B到30B参数的多个模型上,用2-10倍更少的训练步数达到GRPO基线的准确率,最终准确率最高提升11.5个百分点。

自改进的上下文学习

arXiv cs.CL

本文提出一种方法,通过在测试时优化固定小样本提示的连续嵌入来改进上下文学习,该方法利用模型对数概率导出的自监督置信代理,无需微调或生成令牌。