ReAD:面向大型语言模型的强化引导能力蒸馏
摘要
本文提出了 ReAD,这是一种强化引导的能力蒸馏框架,通过考虑大型语言模型中的跨能力迁移来优化 token 预算。与现有基线相比,该方法在提升下游效用的同时,减少了有害溢出。
arXiv:2605.11290v1 公告类型:新论文
摘要:能力蒸馏将知识蒸馏应用于选定的模型能力,旨在在保留下游任务所需能力的同时,将大型语言模型(LLM)压缩为较小的模型。然而,大多数现有方法将各种能力视为独立的训练目标,忽视了提升某一能力如何重塑学生模型更广泛的能力特征,尤其是在多种能力共同决定任务成功的情况下。我们在固定 token 预算下研究了能力蒸馏,并发现了两个一致的模式:蒸馏会引起系统的、依赖于预算的跨能力迁移,且额外的预算往往只能带来有限的任务相关收益,有时甚至会削弱其他有用的能力。基于这些见解,我们提出了 ReAD(Reinforcement-guided cApability Distillation),这是一种明确考虑能力相互依赖关系的强化引导能力蒸馏框架。ReAD 首先推断任务必需的能力,然后动态生成针对特定能力的监督信号,最后利用感知不确定性的上下文多臂老虎机算法,根据预期效用增益自适应地分配蒸馏预算。大量实验表明,与强大的基线方法相比,ReAD 在相同的 token 预算下提高了下游效用,同时减少了有害溢出和浪费的蒸馏努力。我们的代码已公开于 https://github.com/LabRAI/ReAD。
查看缓存全文
缓存时间: 2026/05/13 06:11
# ReAD:用于大型语言模型的能力蒸馏中的强化引导
来源: https://arxiv.org/html/2605.11290
Xueqi Cheng¹, Xugui Zhou², Tyler Derr³, Yushun Dong¹
¹佛罗里达州立大学, ²路易斯安那州立大学, ³范德堡大学
\{xc25,yushun\.dong\}@fsu\.edu; xuguizhou@lsu\.edu; tyler\.derr@vanderbilt\.edu
###### 摘要
能力蒸馏(Capability distillation)将知识蒸馏应用于选定的模型能力,旨在在保留下游任务所需能力的同时,将大型语言模型(LLM)压缩为较小的模型。然而,大多数现有方法将能力视为独立的训练目标,忽视了提升一种能力如何重塑学生模型更广泛的能力概况,尤其是当多种能力共同决定任务成功时。我们在固定令牌(token)预算下研究能力蒸馏,并发现两个一致的模式:蒸馏会引起系统的、依赖于预算的跨能力迁移,且额外的预算往往只能带来有限的任务相关增益,有时甚至会削弱其他有用的能力。基于这些见解,我们提出了 **ReAD**,一种**R**einforcement-guided **c**Apability **D**istillation(强化引导的能力蒸馏)框架,显式地考虑了能力之间的相互依赖性。ReAD 首先推断任务关键能力,然后动态生成针对特定能力的监督信号,最后使用一种感知不确定性的上下文多臂老虎机(contextual bandit)算法,根据预期的效用增益自适应地分配蒸馏预算。大量实验表明,与强大的基线方法相比,ReAD 在相同的令牌预算下提高了下游效用,同时减少了有害的溢出效应和浪费的蒸馏努力。我们的代码已公开发布在 https://github.com/LabRAI/ReAD。
## 1 引言
大型语言模型(LLMs)的知识蒸馏(Knowledge Distillation, KD)[hinton2015distilling](https://arxiv.org/html/2605.11290#bib.bib12) 已成为提升机器学习即服务(MLaaS)[cai2024llmaas](https://arxiv.org/html/2605.11290#bib.bib3) 可访问性和效率的重要研究方向 [zhao2023survey](https://arxiv.org/html/2605.11290#bib.bib41); [xu2024survey\_kd\_llms](https://arxiv.org/html/2605.11290#bib.bib35); [yang2024survey\_kdllm](https://arxiv.org/html/2605.11290#bib.bib37)。通过知识蒸馏,小型 LLM 学习模仿大型教师 LLM 的输出,从而在计算或财务资源有限的情况下实现有效部署 [sanh2019distilbert](https://arxiv.org/html/2605.11290#bib.bib25); [jiao2020tinybert](https://arxiv.org/html/2605.11290#bib.bib14); [wang2020minilm](https://arxiv.org/html/2605.11290#bib.bib31); [li2021dynamickd](https://arxiv.org/html/2605.11290#bib.bib16); [liang2023less](https://arxiv.org/html/2605.11290#bib.bib18)。最近的研究表明,能力蒸馏作为知识蒸馏的一个特例,将监督重点放在目标能力上(例如,指令遵循、推理、数学或编程),可以显著提高学生在主要依赖该能力的下游任务上的表现,同时以低于大型教师模型的推理成本实现这些增益 [magister2023teaching](https://arxiv.org/html/2605.11290#bib.bib20); [shridhar2022distilling](https://arxiv.org/html/2605.11290#bib.bib27); [xu2023wizardlm](https://arxiv.org/html/2605.11290#bib.bib33); [yue2024distilling](https://arxiv.org/html/2605.11290#bib.bib38)。
尽管能力蒸馏取得了 rapid progress,但大多数现有方法仍然假设能力可以独立改进 [taori2023stanford](https://arxiv.org/html/2605.11290#bib.bib30); [chiang2023vicuna](https://arxiv.org/html/2605.11290#bib.bib6); [zhang2024knowledgeable](https://arxiv.org/html/2605.11290#bib.bib40),尽管实证证据表明,优化一种能力通常会引发模型整体能力概况的广泛且非预期的变化 [zhong2024revisiting](https://arxiv.org/html/2605.11290#bib.bib42); [fang2025kddd\_survey](https://arxiv.org/html/2605.11290#bib.bib10); [cloud2025subliminal](https://arxiv.org/html/2605.11290#bib.bib8)。这种不匹配在预算受限的场景下尤其具有后果:在固定的令牌预算下,目标是最大化下游任务效用,这不仅取决于目标能力,还取决于任务可能隐式要求的其他能力。如果忽略跨能力交互,将更多令牌分配给单一目标会在两个方面变得低效:随着预算增加,目标上的额外改进可能会缩小,相同的更新可能会降低需要非目标能力的其他任务的性能。在这种情况下,额外的令牌实际上被花费在提供很少任务相关益处的更新上,甚至可能增加 MLaaS 中的部署风险,我们将此称为**预算浪费**。
为了系统地研究这一差距,我们通过受控的实证研究迈出了衡量和理解这些交互的第一步。具体而言,我们在多个令牌预算下反复蒸馏学生模型,每次将整个预算分配给从一组公认的 LLM 核心能力中抽取的一个目标能力:通识知识(General)、推理(Reasoning)、数学(Math)、代码(Code)、工具使用(Tool use)、长上下文理解(LCU)、可控性(Steerability)和多语言能力(Multilinguality)。每次运行后,我们在表 3 [Table3](https://arxiv.org/html/2605.11290#A1.T3) 中的完整基准测试套件上评估生成的学生模型,并记录每种能力的分数变化。这产生了一个依赖于预算的能力迁移矩阵,其中对角线条目捕获目标改进,非对角线条目捕获向一种能力训练如何重新分配其他能力的性能。
在各个预算下,我们观察到两个一致的模式:(i) 特定能力的蒸馏引起对其他能力的系统性、依赖预算的迁移,而不是孤立的改进;(ii) 增加单一目标的预算产生的额外目标增益较小,同时对非目标能力的平均伤害更加明显,这共同解释了为什么盲目地为一种能力扩大预算可能是低效的。
基于这些观察到的见解,我们提出了 **ReAD**,一种用于大型语言模型的强化引导能力蒸馏框架。总体而言,ReAD 结合了动态生成的针对特定能力的数据和令牌级知识蒸馏,并使用轻量级的上下文老虎机自适应地在相互依赖的能力之间分配固定预算。具体来说,ReAD 首先推断一个任务需求向量,以识别哪些能力对于提高下游效用是至关重要的,并将这些维度上的退化视为有害溢出。然后,它分配蒸馏努力以最大化一个代理奖励,该奖励有利于与任务要求一致的能力增益,同时惩罚溢出和预算消耗。在每个间隔内,ReAD 根据当前分配采样带有能力标签的提示,查询教师以获得监督,使用标准蒸馏损失更新学生,并利用由此产生的能力概况变化来更新感知不确定性的 UCB 分配规则。
大量实验证明,ReAD 增强了任务相关能力,并在预算约束下减少了对低效用能力更新的预算浪费。总之,本文做出以下关键贡献:
- **跨能力交互的实证研究。** 我们表明,针对单一能力的蒸馏会一致地改变其他能力,揭示了通常被忽视的系统性跨能力交互。
- **预算约束下的能力蒸馏公式化。** 我们将能力蒸馏公式化为在多个相互交互的能力之间分配固定预算,提供了在控制副作用的同时改善效用的目标。
- **ReAD:强化引导的能力蒸馏。** ReAD 推断任务相关能力,生成具有可控风格和难度的针对特定能力的蒸馏数据,并使用感知不确定性的上下文老虎机在能力之间分配预算。
- **能力相互依赖性的理论分析。** 我们解释了能力蒸馏中的跨能力交互和收益递减现象。
## 2 预备知识
### 2.1 符号定义
在本文中,我们研究从大型教师模型 $T$ 到较小学生模型 $S$ 的预算约束能力蒸馏,总训练令牌预算为 $B$。令 $\mathcal{C}=\{c_1,...,c_{|\mathcal{C}|}\}$ 表示一组可测量的能力,并令 $s_k(M)$ 为模型 $M$ 在能力 $c_k$ 上的基准分数。蒸馏策略 $\pi$ 规定了如何生成数据、如何查询教师以及如何在能力之间分配令牌,分配预算 $\{b_k\}$ 满足 $\sum_k b_k \leq B$,并产生蒸馏后的学生 $S_\pi$。
### 2.2 直观理解与形式化
现有的 LLM 能力蒸馏工作通常假设目标能力在压缩过程中保持独立。然而,针对一种能力的蒸馏可能会无意中改变其他能力,导致有限预算的使用低效甚至适得其反 [zhong2024revisiting](https://arxiv.org/html/2605.11290#bib.bib42); [fang2025kddd\_survey](https://arxiv.org/html/2605.11290#bib.bib10); [cloud2025subliminal](https://arxiv.org/html/2605.11290#bib.bib8)。为了研究这些交互,我们使用常用的基准测试评估了八种核心 LLM 能力,完整的基准测试到指标的映射见附录 A [AppendixA](https://arxiv.org/html/2605.11290#A1) 表 3 [Table3](https://arxiv.org/html/2605.11290#A1.T3)。这些能力涵盖了 LLM 行为的主要维度,并激发了我们统一**能力蒸馏**公式的动机。
###### 定义 2.1(能力蒸馏)
给定教师模型 $T$、初始学生模型 $S_0$ 和能力特定的数据分布 $\{\mathcal{D}_c\}_{c\in\mathcal{C}}$,能力蒸馏通过在共享表示下优化蒸馏目标的加权混合,将有限预算 $B$ 分配给能力,以提高任务相关的性能:
$$
\min_{S, \mathbf{w}} \mathbb{E}_{x\sim\mathcal{D}_{\mathbf{w}}}\left[\ell\left(S(x),T(x)\right)\right] \quad \text{s.t.} \quad \mathbf{w}\in\Delta_{|\mathcal{C}|}, \;\mathrm{cost}(S;S_{0})\leq B. \tag{1}
$$
其中 $\mathcal{D}_{\mathbf{w}}:=\sum_{c\in\mathcal{C}}w_{c}\mathcal{D}_{c}$,且 $\mathrm{cost}(S;S_{0})$ 衡量从 $S_0$ 获得 $S$ 所消耗的蒸馏令牌预算。这里 $\mathbf{w}=(w_{c})_{c\in\mathcal{C}}$ 位于概率单纯形 $\Delta_{|\mathcal{C}|}=\Big\{\mathbf{w}\in\mathbb{R}^{|\mathcal{C}|} \;\big\|\; w_{c}\geq 0,\; \sum_{c\in\mathcal{C}}w_{c}=1\Big\}$ 中,这指定了跨能力的训练努力分配,$\ell$ 表示标准的蒸馏损失,例如学生和教师输出之间的令牌级交叉熵或 logit 匹配。
因此,我们进行了一项实证研究,以识别和量化将有限的蒸馏预算分配给特定能力如何引起其他能力的系统性性能变化,从而揭示 LLM 中能力之间固有的相互依赖结构。
###### 定义 2.2(能力相互依赖性)
令 $S_0$ 为初始学生模型,令 $S(\mathbf{w},B)$ 表示在分配 $\mathbf{w}\in\Delta_{|\mathcal{C}|}$ 和预算 $B$ 下进行能力蒸馏后获得的学生。对于每种能力 $c_i$,定义独热分配向量 $\mathbf{w}^{(i)}\in\Delta_{|\mathcal{C}|}$,使得 $w_i^{(i)}=1$ 且对所有 $j\neq i$ 有 $w_j^{(i)}=0$。**能力相互依赖性**由能力迁移矩阵 $T_{ij}(B)$ 表征:
$$
T_{ij}(B):=s_{j}\!\left(S(\mathbf{w}^{(i)},B)\right)-s_{j}(S_{0}),
$$
其中 $T(B)\in\mathbb{R}^{|\mathcal{C}|\times|\mathcal{C}|}$,$T_{ij}(B)$ 量化了向能力 $c_i$ 蒸馏对能力 $c_j$ 性能的影响。非零的非对角线条目表明在共享表示下能力之间存在相互依赖性。
### 2.3 探索性研究与问题公式化
在本节中,我们通过受控的蒸馏实验分析实证能力相互依赖性。在所有实验中,我们在固定的令牌预算下,使用附录表 3 [Table3](https://arxiv.org/html/2605.11290#A1.T3) 中的目标能力和几种代表性的能力蒸馏策略,将 Llama-3.3-70B-Instruct 蒸馏到 Llama-3.1-8B-Instruct。对于每种策略 $\pi$ 和预算 $B$,我们在所有基准测试上评估学生模型以形成能力迁移矩阵,捕获目标能力增益和非目标变化。我们将所有基准分数归一化为 $[0,100]$;细节见附录 B [AppendixB](https://arxiv.org/html/2605.11290#A2)。
<!-- Image placeholder retained as text description from source -->
*(a) 小令牌预算 (b) 大令牌预算*
**图 1:** 单一能力蒸馏下的跨能力迁移。较大的预算增强了目标能力增益,但也暴露出更强的负迁移。
**观察 1:** 蒸馏特定能力会以依赖预算的方式重新分配其他能力的性能。
图 1 [Figure1](https://arxiv.org/html/2605.11290#S2.F1) 报告了不同令牌预算下能力迁移矩阵的可视化。这里,非对角线质量始终非零,意味着优化单一能力会改变其他能力,而不是保持不变。此外,结构随预算变化:在较小预算下,变化通常较弱且分散,而在较大预算下,对角线增强,但特定非目标能力的负非对角线变得更为明显。这些结果共同表明,能力蒸馏引起了性能的结构化重新分配。
<!-- Image placeholder retained as text description from source -->
*(a) 收益递减 (b) 溢出增加*
**图 2:** 能力蒸馏中的预算浪费。额外的令牌产生的目标增益较小,同时增加了对非目标能力的有害溢出。
**观察 2:** 能力蒸馏由于收益递减和负溢出而表现出大量的预算浪费。
在固定的蒸馏预算下,针对目标能力的额外令牌理想情况下应提供有意义的目标改进,而不降级下游所需的其他能力。我们使用从能力迁移矩阵 $T(B)$ 衍生的两个诊断指标来测试这一点。首先,**收益递减**衡量边际目标增益是否随预算增加而缩小,比较同一目标的 20M→80M 与 80M→150M 的增益。其次,**负溢出**衡量随着更多预算分配给目标,非目标能力的下降情况。
图 2(a) [Figure2(a)](https://arxiv.org/html/2605.11290#S2.F2.sf1) 显示,对于改进最显著的目标,20M→80M 的增益始终大于 80M→150M 的增益,表明目标能力趋于饱和。图 2(b) [Figure2(b)](https://arxiv.org/html/2605.11290#S2.F2.sf2) 进一步显示,对非目标能力的连带伤害随预算 $b$ 增加而增长。相似文章
UniSD:面向大型语言模型的统一自蒸馏框架
本文提出了 UniSD,这是一种用于适应大型语言模型的统一自蒸馏框架,整合了监督可靠性、表征对齐和训练稳定性的机制。实验结果表明,UniSD 在多个基准测试中均优于基础模型和现有基线方法。
超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则
本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。
面向大型语言模型归因引导的持续学习
本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。
CASCADE:大语言模型在部署期间的基于案例的持续自适应
本文介绍了 CASCADE,这是一个部署时学习框架,允许大型语言模型通过情境记忆和上下文赌博机优化实现持续自适应,而无需修改模型参数。
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。