RAFT：缓解遗忘的领域微调中的数据优化与自适应蒸馏

arXiv cs.LG 2026/06/02 04:00 论文

摘要

RAFT是一个两阶段框架，用于LLM的领域特定微调。它通过优化监督数据和使用带有自适应损失平衡的在线策略蒸馏来解决灾难性遗忘问题，在提升领域精度的同时恢复通用能力，取得了显著改进。

arXiv:2606.00147v1 公告类型：新提交摘要：领域特定的监督微调通常在提升领域内性能的同时，以牺牲模型的通用能力为代价。我们将这种性能下降归因于领域监督微调中的两个实际差距：监督兼容性差距（即领域目标在风格和推理格式上与原始模型自然响应不同）和轨迹保持差距（即教师强迫的监督微调优化固定目标词元，而不约束模型在其自身生成前缀上的行为）。这一过程未能保留模型的原始行为。我们提出RAFT（缓解遗忘的领域微调中的数据优化与自适应蒸馏），一个两阶段框架，旨在解决这两个因素。首先，RAFT通过自条件重写、语义过滤和答案融合构建与模型兼容的监督。其次，RAFT执行答案条件在线策略蒸馏，其中原始指令调优模型在学生生成的轨迹上提供软目标，同时以融合答案作为有益上下文进行条件化。我们进一步引入Top-K温度蒸馏和基于指数移动平均的自适应损失平衡，以稳定领域-通用权衡。在三个指令调优基座模型和五个领域上，RAFT相比标准SFT使平均领域精度提升23.2%，同时在MS-Bench和IFEval上恢复了部分由SFT导致的性能下降，相对提升分别为18.2%和10.2%。这些结果表明，将数据优化与轨迹级保持相结合，为缓解遗忘的领域微调提供了一种有效方案。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:39

# RAFT：面向领域微调的数据精炼与自适应蒸馏，缓解遗忘问题  
来源：https://arxiv.org/html/2606.00147  

Yuduo Li¹,²∗§, Xiaofeng Shi¹,²∗†, Qian Kou¹, Longbin Yu¹, Hua Zhou¹‡  

¹北京人工智能研究院 (BAAI)  
²北京交通大学 (BJTU)  

###### 摘要  

领域特定的监督微调（SFT）通常以降低模型的通用能力为代价来提升领域内性能。我们将这种退化归因于领域 SFT 中的两个实际差距：监督兼容性差距，即领域目标在风格和推理格式上偏离模型原始的自然回复；以及轨迹保持差距，即教师强制下的 SFT 仅优化固定目标词元，而不约束模型在其自身生成前缀上的行为。这一过程无法保持模型的原始行为。我们提出 RAFT（面向领域微调的数据精炼与自适应蒸馏，缓解遗忘问题），一个两阶段框架来应对这两个因素。首先，RAFT 通过自条件重写、语义过滤和答案融合来构建模型兼容的监督信号。其次，RAFT 执行答案条件化的同策略蒸馏，其中原始指令微调模型在学生生成的轨迹上提供软目标，同时以融合答案作为有用的上下文背景。我们进一步引入 Top-K 温度蒸馏和基于 EMA 的自适应损失平衡，以稳定领域与通用能力之间的权衡。在三个指令微调骨干模型和五个领域上，RAFT 相较于标准 SFT 平均领域准确率提升 23.2%，同时在 MS-Bench 和 IFEval 上恢复了 SFT 导致的部分退化，相对提升分别为 18.2% 和 10.2%。这些结果表明，将数据精炼与轨迹级保持相结合，为缓解遗忘的领域微调提供了一种有效的方法。  

††∗同等贡献。  
††§实习期间在 BAAI 完成的工作。  
†††通讯作者。邮箱：[email protected]  
††‡项目负责人。  

## 1 引言  

大语言模型（LLMs）通过预训练和指令微调获得了广泛的能力（Zhang et al., 2026 (https://arxiv.org/html/2606.00147#bib.bib28); Grattafiori et al., 2024 (https://arxiv.org/html/2606.00147#bib.bib13); Abouelenin et al., 2025 (https://arxiv.org/html/2606.00147#bib.bib15)），然而领域特定的监督微调（SFT）常常会导致*灾难性遗忘*（Luo et al., 2025 (https://arxiv.org/html/2606.00147#bib.bib29); Kotha et al., 2023 (https://arxiv.org/html/2606.00147#bib.bib30)）——通用能力严重下降。我们关注两个实际因素，使得领域 SFT 容易发生遗忘：（1）真实监督信号与模型自身输出分布之间的*分布不匹配*，迫使参数发生剧烈偏移，覆盖了预训练知识（Yang et al., 2024 (https://arxiv.org/html/2606.00147#bib.bib26)）；（2）在优化过程中缺乏明确的机制来*保持通用能力*，优化只关注领域损失。  

许多现有方法主要侧重于这一问题的某一方面。自蒸馏（SDFT）（Yang et al., 2024 (https://arxiv.org/html/2606.00147#bib.bib26)）通过重写监督信号来减少分布不匹配，但缺乏训练层面的正则化。同策略蒸馏（Lu and Lab, 2025 (https://arxiv.org/html/2606.00147#bib.bib10)）在学生轨迹上引入 KL 约束，但严重依赖教师模型的质量，使其对教师偏差敏感。基于重放的方法（Lu et al., 2026 (https://arxiv.org/html/2606.00147#bib.bib31); Luo et al., 2025 (https://arxiv.org/html/2606.00147#bib.bib29)）混合通用领域数据，但对混合比例敏感。正则化方法如 L2SP（Xuhong et al., 2018 (https://arxiv.org/html/2606.00147#bib.bib33)）和 EWC（Kirkpatrick et al., 2017 (https://arxiv.org/html/2606.00147#bib.bib32)）添加参数级约束，忽略了功能行为，且对 LLM 来说计算成本高昂。遗忘感知剪枝（Huang et al., 2025 (https://arxiv.org/html/2606.00147#bib.bib6)）仅提供结构正则化。简而言之，现有方法通常只关注数据质量或训练约束，但很少两者兼顾。虽然自蒸馏和 KL 散度已被广泛研究，但如何有效结合数据精炼与训练级正则化在领域 SFT 中仍是一个空白。关键挑战在于这两个方面是耦合而非独立的。数据精炼改进了用于交叉熵训练的参考答案，但并不约束模型在其自身生成轨迹上的行为。相反，同策略蒸馏正则化学生轨迹，但如果没有目标感知的监督，它可能成为一个保守的锚点，限制领域适应。  

RAFT 通过将融合答案同时用作模型兼容的 SFT 监督信号以及同策略蒸馏期间教师的有用上下文背景，来解决这种耦合。如图 1 (https://arxiv.org/html/2606.00147#S1.F1) 所示，RAFT 通过离线蒸馏和自适应同策略蒸馏将数据优化与训练优化相结合。在*离线蒸馏*中，我们首先基于模型自身的分布对真实答案进行重写，并使用余弦相似度过滤来决定是否采纳重写后的答案。选中的数据与原始样本一起输入到一个更强的融合模型中，生成精炼后的回复。在*自适应同策略蒸馏*中，我们使用融合后的数据集训练模型，并显式地保持通用能力。在每个训练步骤中，模型首先通过自回归采样生成轨迹。然后，原始指令微调模型（教师）通过答案条件化的同策略蒸馏提供软监督，此时教师以融合数据集中的答案作为额外上下文，提供更具信息量的指导。我们进一步引入 Top-K 温度蒸馏机制，将 KL 散度聚焦在最信息性的词元上，防止过度平滑并提高输出多样性。此外，我们提出一种基于 EMA 的自适应平衡策略，动态调整 SFT 与蒸馏之间的权重，消除了手动调整超参数的需求。  

（见图 1 说明）  

图 1：RAFT 框架概览。左：离线蒸馏通过将模型的重写答案（经余弦相似度过滤）与原始数据结合，经过更强的融合模型生成更高质量的融合数据。右：自适应同策略蒸馏通过答案条件化同策略蒸馏、软化概率分布上的蒸馏以及基于 EMA 的自适应损失平衡来训练模型。  

我们在三个模型（SmolLM3-3B、Llama-3.2-3B-Instruct、Phi-4-mini-instruct）和五个领域上评估了 RAFT。我们的贡献包括：  

- • 我们识别并针对领域 SFT 中与遗忘相关的两个实际因素：监督分布不匹配以及缺乏显式的保持约束。  
- • 我们引入一个离线蒸馏阶段，使用余弦相似度过滤选择分布一致的重写答案，并将其与原始数据融合以提高响应质量。  
- • 我们提出一种自适应同策略蒸馏方法，结合了答案条件化同策略蒸馏、Top-K 温度蒸馏机制以及基于 EMA 的损失平衡。  
- • RAFT 恢复了 SFT 导致的部分退化，MS-Bench（18.2%）和 IFEval（10.2%），同时领域准确率（D-Acc）提升了 23.2%。  

## 2 相关工作  

##### 缓解通用能力的遗忘。  
针对特定领域任务微调 LLM 常常导致其通用能力灾难性遗忘（Qi et al., 2023 (https://arxiv.org/html/2606.00147#bib.bib7)）。现有的缓解方法大致可分为三类：（1）基于重放的方法（Rolnick et al., 2019 (https://arxiv.org/html/2606.00147#bib.bib1); Huang et al., 2024 (https://arxiv.org/html/2606.00147#bib.bib2)）通过将通用领域数据或重放样本与任务特定训练数据混合来缓解遗忘，使模型在适应过程中持续演练预训练知识。（2）基于正则化的方法（Chen et al., 2020 (https://arxiv.org/html/2606.00147#bib.bib3); Zixuan et al., 2023 (https://arxiv.org/html/2606.00147#bib.bib4)）通过约束参数更新或输出分布来减少与预训练模型的破坏性偏移。（3）参数空间调整方法将适应限制在参数的有限子集内，或仔细修改模型权重，例如通过参数高效微调如 LoRA（Hu et al., 2022 (https://arxiv.org/html/2606.00147#bib.bib5)）、部分参数冻结（Huang et al., 2025 (https://arxiv.org/html/2606.00147#bib.bib6)），从而更多地保留模型原有的通用能力。  

##### 同策略蒸馏。  
在线蒸馏将学生与教师信号在由当前学生策略生成的轨迹上对齐，而不是依赖固定的离线数据集（Shenfeld et al., 2026 (https://arxiv.org/html/2606.00147#bib.bib8)）。通过使监督与模型自身的训练轨迹匹配，它在保持通用能力方面显示出巨大潜力（Hübotter et al., 2026 (https://arxiv.org/html/2606.00147#bib.bib9); Lu and Lab, 2025 (https://arxiv.org/html/2606.00147#bib.bib10)）。然而，纯在线蒸馏并未充分利用标准监督数据集中提供的标记目标答案（Agarwal et al., 2023 (https://arxiv.org/html/2606.00147#bib.bib11)）。相比之下，我们的方法将 SFT 监督与同策略蒸馏相结合，使模型能够准确学习领域特定答案，同时缓解灾难性遗忘。与这些策略的概念性比较见附录 B (https://arxiv.org/html/2606.00147#A2)。  

## 3 方法论  

### 3.1 概述  

我们提出了一个统一框架来缓解领域特定监督微调（SFT）中的灾难性遗忘。如第 1 节 (https://arxiv.org/html/2606.00147#S1) 所述，灾难性遗忘源于数据阶段和优化阶段的原因。因此，我们的框架在两个阶段进行干预：在数据阶段，通过离线蒸馏构建更高质量的训练数据（第 3.2 节 (https://arxiv.org/html/2606.00147#S3.SS2)）；在优化阶段，通过自适应同策略蒸馏添加蒸馏约束（第 3.3 节 (https://arxiv.org/html/2606.00147#S3.SS3)）。给定领域数据集 D = { (x_i, y_i) }_{i=1}^N，其中 x_i 是输入指令，y_i 是真实答案。令 θ 表示正在微调的模型参数。标准 SFT 仅在领域真实答案上优化 θ，这提升了领域性能，但导致模型偏离预训练和对齐阶段获得的知识和行为模式。  

### 3.2 离线蒸馏  

灾难性遗忘的一个直接原因是真实答案与微调前模型输出分布之间的分布不匹配：强制模型拟合远离其自然表达风格的答案会导致参数剧烈偏移，覆盖预训练知识。为了解决这个问题，我们构建了保留事实内容同时使表达风格适应原始指令微调模型的训练数据，经过三个阶段：自条件重写、语义过滤，以及基于融合响应的多专家最优选择。  

**自条件重写。** 对于每个样本 (x_i, y_i)，原始指令微调模型在给定原始答案的条件下生成一个重写：  

ỹ_i ∼ p_θ(· | x_i, y_i)  (1)  

其中 p_θ 表示由原始指令微调模型（参数化为 θ）的输出分布。以 y_i 为条件保留了关键事实内容，同时使表达风格适应原始指令微调模型的自身输出分布，遵循自蒸馏范式（Yang et al., 2024 (https://arxiv.org/html/2606.00147#bib.bib26)）。然而，没有质量控制的自重写可能导致语义漂移，即重写答案偏离原始含义。  

**语义过滤。** 为了防止自重写导致的语义漂移，我们在共享嵌入空间中计算原始答案与重写答案之间的余弦相似度：  

s_i = φ(y_i)^⊤ φ(ỹ_i) / (||φ(y_i)|| · ||φ(ỹ_i)||)  (2)  

其中 φ: V^* → R^d 是一个预训练句子编码器，将文本序列映射到 d 维嵌入。候选重写通过一个阈值进行过滤：  

ȳ_i = { ỹ_i,  s_i ≥ τ;  y_i,  s_i < τ }  (3)  

其中 τ 是相似度阈值（详细分析见附录 E.1 (https://arxiv.org/html/2606.00147#A5.SS1)）。当重写与原始答案语义一致（s_i ≥ τ）时，ȳ_i 被保留用于后续与 y_i 融合；否则，直接使用原始答案 y_i，防止自强化中的错误累积。  

虽然语义过滤确保了每个样本的质量，但由于生成的随机性，单个模型输出仍存在方差——单次融合尝试可能无法产生最佳结果。  

**基于融合响应的多专家最优选择。** 考虑到模型输出的随机性，我们进行多轮融合以提高鲁棒性和输出质量。具体来说，对于通过语义过滤的样本（s_i ≥ τ），我们通过一个融合模型（Qwen3-3B (Team, 2025 (https://arxiv.org/html/2606.00147#bib.bib23)））f_merge 融合 y_i 和 ȳ_i，以生成更高质量的答案 ŷ_i（提示模板见附录 C (https://arxiv.org/html/2606.00147#A3)）。为了确保融合输出的质量，我们使用多个评判模型独立评估融合结果与原始答案之间的一致性。我们进行多轮融合和评分，并选择平均评估分数最高的结果作为最终的 ŷ_i。评估细节见附录 D (https://arxiv.org/html/2606.00147#A4)。  

最后，我们构建数据集：  

D̂ = { (x_i, ŷ_i) }_{i:s_i ≥ τ} ∪ { (x_i, y_i) }_{i:s_i < τ}  (4)  

该数据集在保留事实完整性的同时，使表达风格适应指令微调模型的分布，并通过多模型评分机制确保了输出质量。  

### 3.3 自适应同策略蒸馏  

尽管融合数据 D̂ 在离线蒸馏阶段缓解了分布不匹配，但单独的 SFT 仍然会遭受灾难性遗忘：仅优化领域数据导致模型逐渐丧失其通用能力。为了缓解这一根本限制，我们将原始指令微调模型本身作为教师，并执行在线蒸馏（译者注：原文此处中断，根据上下文，应继续描述自适应同策略蒸馏方法，但用户提供的文本到此结束。按照要求，我们只翻译给定的内容，不补充后续未提供的文本。）

相似文章

利用强化微调克服视觉连续学习中的灾难性遗忘

Hugging Face Daily Papers

本文提出保留感知策略优化（RaPO），通过强化微调缓解视觉连续学习中的灾难性遗忘。RaPO采用轨迹级奖励塑形和跨任务优势归一化，缩小了类增量学习和域增量学习中强化微调与监督微调之间的差距。

基于广义瑞利商优化的基础保留适应

arXiv cs.LG

提出FoLoRA，一种遗忘感知优化框架，用于微调基础模型，通过广义瑞利商优化平衡任务效用和遗忘惩罚，更好地保留非目标能力。

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移来源：[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要经过安全调优的大语言模型（LLM）通常会回避承认人口统计差异，即使这种承认在事实上是正确的（例如，基于血统的

自蒸馏作为大语言模型的性能恢复机制：对抗压缩和灾难性遗忘

arXiv cs.CL

本文介绍了自蒸馏微调（SDFT）作为大语言模型性能恢复机制，用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐（CKA）提供了理论证明，表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐，从而有效恢复丧失的能力。

通过反思增强自蒸馏在稀有成功但反馈丰富的场景中学习