定制课程:基于动态数据-模型兼容性的以学生为中心的推理蒸馏

arXiv cs.AI 论文

摘要

提出数据-模型兼容性(DMC)指标,用于评估推理数据集在蒸馏过程中与学生模型的匹配程度。实验表明,DMC与蒸馏性能强相关,且基于DMC动态选择数据集可进一步提升推理能力。

arXiv:2605.29229v1 公告类型: 新论文 摘要:推理蒸馏将大型语言模型(LLM)的复杂推理能力迁移至较小模型,但其成功与否取决于训练数据与学生模型的匹配程度。本文引入数据-模型兼容性(DMC)指标,用于评估数据集在学生模型上进行推理蒸馏的适用性。DMC通过联合考虑数据质量、相对难度和学生能力提供评估。我们从两个角度验证了DMC的有效性:(1)DMC与推理蒸馏性能呈现强相关性;(2)以DMC作为数据选择标准可提升推理蒸馏性能。这两个发现在多个学生模型和任务上均得到一致验证。此外,由于每个数据集的DMC在训练过程中动态变化,我们的实验表明,基于DMC动态选择数据集可进一步提升性能。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:14

# 定制课程:通过动态数据-模型兼容性进行以学生为中心的推理蒸馏

来源:https://arxiv.org/html/2605.29229
黄嘉豪¹ 程菲²,³ 蒋俊峰³ 相泽明子¹,³ 
¹东京大学 ²京都大学 ³国立信息学研究所 
jiahao\-huang@g\.ecc\.u\-tokyo\.ac\.jp 
feicheng@i\.kyoto\-u\.ac\.jp 
{jiang, aizawa}@nii\.ac\.jp

###### 摘要

推理蒸馏将复杂推理能力从大型语言模型 (LLM) 迁移到较小的模型,但其成功取决于训练数据与学生模型的匹配程度。本文引入了数据-模型兼容性 (DMC) 指标,用于评估数据集对学生模型进行推理蒸馏的适用性。DMC 通过联合考虑数据质量、相对难度和学生能力来提供评估。我们从两个角度验证了 DMC 的有效性:(1) DMC 与推理蒸馏性能具有较强的相关性;(2) 使用 DMC 作为数据选择标准可提高推理蒸馏性能。这两个发现均在多个学生模型和任务上得到一致验证。此外,由于数据集的 DMC 在训练过程中动态变化,我们的实验表明,基于 DMC 动态选择数据集可以进一步提升性能。

定制课程:通过动态数据-模型兼容性进行以学生为中心的推理蒸馏

黄嘉豪¹ 程菲²,³ 蒋俊峰³ 相泽明子¹,³ 
¹东京大学 ²京都大学 ³国立信息学研究所 
jiahao\-huang@g\.ecc\.u\-tokyo\.ac\.jp 
feicheng@i\.kyoto\-u\.ac\.jp 
{jiang, aizawa}@nii\.ac\.jp

## 1 引言

近年来,出现了大量推理模型,包括 OpenAI o1 (Jaech et al., 2024 (https://arxiv.org/html/2605.29229#bib.bib11))、DeepSeek-R1 (Guo et al., 2025 (https://arxiv.org/html/2605.29229#bib.bib12)) 和 QwQ (Team, 2025 (https://arxiv.org/html/2605.29229#bib.bib13))。这些大型模型在逻辑和数学等依赖推理的任务上表现出色。然而,中小型模型的推理能力发展仍不充分。由于资源消耗更低、灵活性更高,较小模型在需要兼顾效率和效果的场景中被更广泛采用。因此,研究人员致力于将大模型的推理能力压缩到小模型中,我们在这篇论文中称之为**推理蒸馏**。

在推理蒸馏中,学生模型在包含问题、答案以及教师模型生成的相应推理过程的数据集上进行微调。先前的工作 (Zhang et al., 2025b (https://arxiv.org/html/2605.29229#bib.bib1); Xu et al., 2025 (https://arxiv.org/html/2605.29229#bib.bib3); You et al., 2017 (https://arxiv.org/html/2605.29229#bib.bib24); Li et al., 2025c (https://arxiv.org/html/2605.29229#bib.bib29)) 主要关注如何选择教师模型和推理过程生成方法的组合,以提升推理蒸馏的性能。然而,我们认为教师模型和生成方法只是影响推理蒸馏的间接因素,而最直接的因素则是推理数据集和学生模型的特征。在这篇论文中,我们旨在从一个新的视角研究推理蒸馏,聚焦于数据集和学生模型特征的选择、评估和组合。

**研究问题1:** 数据集和学生模型的哪些特征能够有效反映推理蒸馏的性能?

我们从三个角度分析数据集和学生模型的特征:**数据质量** (Q)(数据的一个特征)、**相对难度** (D)(数据和学生模型的联合特征)以及**学生能力** (C)(学生模型的一个特征)。它们的精确定义和计算在第3.2节 (https://arxiv.org/html/2605.29229#S3.SS2) 中给出。

基于这些特征,我们提出数据-模型兼容性 (DMC),将其表述为 Q、D 和 C 的函数,用于评估数据集对学生模型进行推理蒸馏的适用性。我们从两个方面证明了其有效性:(i) DMC 值与跨数据集和学生模型的推理蒸馏性能高度相关;(ii) 由高 DMC 数据构建的数据集能训练出性能更好的学生模型。

相对难度 D 和学生能力 C 本质上是动态的,因为它们依赖于模型在训练过程中不断变化的能力。因此,具有高 DMC 值的数据也会随着训练动态变化。由此我们提出第二个研究问题:

**研究问题2:** 根据不断变化的 DMC 值进行动态数据选择能否进一步提升推理蒸馏的性能?

通过这个研究问题,我们解决了两个研究空白。首先,我们提出了一种创新的推理蒸馏数据选择方法,能够自适应地选择最兼容的训练数据,使数据选择过程响应灵敏且贴合模型的推理水平。其次,与仅依赖困惑度等传统动态数据选择方法 (Li et al., 2024a (https://arxiv.org/html/2605.29229#bib.bib32); Zhang et al., 2025a (https://arxiv.org/html/2605.29229#bib.bib49)) 相比,DMC 是基于大量模型-数据实验经验推导得出的,提供了更扎实的数据驱动基础。

总之,本文的主要贡献如下:(1) 我们提出了数据-模型兼容性 (DMC) 指标,该指标联合建模了数据质量、相对难度和学生能力三个特征,能够有效评估一个数据集是否适合对学生模型进行推理蒸馏。(2) 我们提出了一种基于 DMC 的动态数据选择方法,能够在训练过程中自适应地重新选择训练数据,以匹配学生不断变化的能力,从而有效提升测试集上的推理蒸馏性能。

## 2 相关工作

#### LLM 的推理能力

研究表明,在问答 (QA) 任务中向 LLM 引入推理过程可以提升模型性能 (Wei et al., 2022 (https://arxiv.org/html/2605.29229#bib.bib18); Kojima et al., 2022 (https://arxiv.org/html/2605.29229#bib.bib14))。已有多种方法被提出用于在大型语言模型 (LLM) 中生成推理过程,例如普通的思维链 (CoT) (Kojima et al., 2022 (https://arxiv.org/html/2605.29229#bib.bib14); Hsieh et al., 2023 (https://arxiv.org/html/2605.29229#bib.bib2); Mukherjee et al., 2023 (https://arxiv.org/html/2605.29229#bib.bib5); Mitra et al., 2023 (https://arxiv.org/html/2605.29229#bib.bib6); Lewkowycz et al., 2022 (https://arxiv.org/html/2605.29229#bib.bib4))、思维树 (Yao et al., 2023 (https://arxiv.org/html/2605.29229#bib.bib22))、反向思维 (Chen et al., 2024b (https://arxiv.org/html/2605.29229#bib.bib19)) 和自我反思 (Li et al., 2025b (https://arxiv.org/html/2605.29229#bib.bib20), a (https://arxiv.org/html/2605.29229#bib.bib21))。

#### 数据选择

近年来,随着数据生成方法的增多,数据选择越来越受到关注,以进一步提升推理蒸馏的效果。从方法角度来看,Zhang et al. (2025b (https://arxiv.org/html/2605.29229#bib.bib1))、Tian et al. (2025 (https://arxiv.org/html/2605.29229#bib.bib9)) 和 Chen et al. (2025 (https://arxiv.org/html/2605.29229#bib.bib8)) 将教师模型和生成方法视为推理蒸馏的重要因素。从数据角度来看,通常使用质量和难度。质量通常由 LLM 评估器 (Chen et al., 2024a (https://arxiv.org/html/2605.29229#bib.bib25); Liu et al., 2024b (https://arxiv.org/html/2605.29229#bib.bib26); Lee et al., 2024 (https://arxiv.org/html/2605.29229#bib.bib10)) 或奖励模型 (Xu et al., 2024 (https://arxiv.org/html/2605.29229#bib.bib27)) 来评估。难度可以通过困惑度 (PPL)、条件困惑度 (CPPL) (Li et al., 2024b (https://arxiv.org/html/2605.29229#bib.bib28))、IFD (Li et al., 2024a (https://arxiv.org/html/2605.29229#bib.bib32)) 等方法量化。最近也引入了结合两者指标的方法,如兼容性调整奖励 (CAR) (Xu et al., 2025 (https://arxiv.org/html/2605.29229#bib.bib3))。与这些方法不同,我们的 DMC 是数据驱动的,并且明确以学生不断变化的能力为条件,在整个训练过程中选择最匹配学生当前状态的数据,而不是依赖固定的、手工设计的假设(例如,质量或难度越高越好)并忽略学生模型本身。

## 3 预备知识

参考图注图 1:本文的流程。DMC 指标在第 4 节 (https://arxiv.org/html/2605.29229#S4) 中表述;两个研究问题在第 6 节 (https://arxiv.org/html/2605.29229#S6) 中进行实证验证。

### 3.1 问题形式化

图 1 (https://arxiv.org/html/2605.29229#S3.F1) 说明了本研究问题的形式化以及一些具体设置。推理蒸馏从一个原始的问答 (QA) 数据集 D₀ = {(q, a)} 开始,其中 q 是问题,a 是标准答案。对于每个问答对,教师模型 T 使用增强方法 Aug 生成推理过程 r。因此,整个数据集可以扩展为推理数据集 D(T, Aug) = {(q, r, a)}。为了确保推理过程的多样性,可以使用多个教师模型和增强方法。我们将所有推理数据集聚合到一个推理数据池中:U = ⋃_{T, Aug} D(T, Aug)。

为了进行比较,我们从数据池中采样若干子集 Dᵢ ⊆ U。一方面,我们在 Dᵢ 上微调学生模型 S,并将其测试集性能记为 P_S(Dᵢ)。另一方面,我们旨在确定一个指标 M 来评估使用 Dᵢ 对学生模型 S 进行推理蒸馏的适用性,记为 M_S(Dᵢ)。[M_S(Dᵢ)]|ᵢ 和 [P_S(Dᵢ)]|ᵢ 之间的高相关性表明 M 是一个有效的指标。

### 3.2 基础特征

一个数据集是否有利于推理蒸馏并非数据本身的固有属性;它取决于数据与特定学生模型的匹配程度。因此,我们沿着三个互补的特征来描述这种匹配度。**数据质量 (Q)** 捕获数据侧:一个不正确、不连贯或未能得出答案的推理链,无论哪个模型在其上训练,都会教会学生错误的模式。**相对难度 (D)** 捕获数据与模型之间的交互:一个太难的链无法被当前学生吸收,而一个太简单的链则传递很少的新信号,因此重要的是相对于学生的难度。**学生能力 (C)** 捕获模型侧:由于同一份数据对不同学生的适合程度不同,忽略学生的指标根本无法表达兼容性。综合起来,Q、D 和 C 覆盖了数据、模型及其交互,这使得它们成为分析数据-模型兼容性 (DMC) 的自然基础。本小节描述每个特征的计算方式;它们如何集成到 DMC 指标中将在第 4 节 (https://arxiv.org/html/2605.29229#S4) 中介绍。

#### 数据质量 Q

数据质量是评估推理过程 r 是否正确、准确、连贯并导向标准答案的指标。遵循 Xu et al. (2025 (https://arxiv.org/html/2605.29229#bib.bib3), 2024 (https://arxiv.org/html/2605.29229#bib.bib27)) 的做法,我们采用最先进的奖励模型来评分每个单条数据的质量;具体的奖励模型在第 5 节 (https://arxiv.org/html/2605.29229#S5) 中详述。对于每个子集 Dᵢ,我们将数据集的质量定义为其内部所有数据条目的平均质量。由于数据质量仅取决于数据本身,因此省略学生模型 S 的下标,记为 Q(Dᵢ)。

#### 相对难度 D

我们强调,这里的难度不是数据的固有属性,而是始终**相对于给定的学生模型**来定义的:它衡量该特定模型发现推理链难以理解的程度,因此同一条链对于强学生来说可能容易,而对于弱学生来说可能困难。困惑度 (PPL)、条件困惑度 (CPPL) 和指令跟随难度 (IFD) (Li et al., 2024a (https://arxiv.org/html/2605.29229#bib.bib32)) 是评估这种相对难度的主流指标。对于学生模型 S,推理 r 的 PPL 可通过下式计算:

PPL_S(r) = exp( -1/N ∑_{i=1}^N log p_S(r^i | r^{1:i-1}) )  (1)

其中 r^i 表示 r 的第 i 个 token,N 是 r 中的 token 数量。CPPL 可通过 PPL_S(r|q) 计算,IFD 定义为 CPPL 与 PPL 的比率。与 Q 类似,数据集 Dᵢ 对学生模型 S 的难度定义为 Dᵢ 中所有数据样本的平均难度。

#### 学生能力 C

先前的工作主要关注数据的特征,而忽视了模型本身;因此,我们引入学生能力 C 作为 DMC 公式中的另一个关键因素。

学生能力的概念受到人类教育中分班考试的启发:首先评估学生的能力,然后设计合适的训练课程。从数据池 U 中,我们分离出一个由高质量样本组成的小子集 Dₚ,作为学生能力的初步评估分班测试;这些样本被保留下来,不参与后续训练,采样细节在第 5 节 (https://arxiv.org/html/2605.29229#S5) 中给出。我们认为学生能力是模型能够理解来自分班测试的推理数据的程度。因此,我们将学生模型 S 的绝对能力值定义为:

C_S^{abs} = E_{(q,r) ∈ Dₚ} 1/N ∑_{i=1}^N log p_S(r^i | q, r^{1:i-1})  (2)

C_S^{abs} 的值越高,表明对分班测试中高质量推理的信心和熟悉程度越高,从而反映出更强的能力。通过将不同学生模型在各种原始数据集 D₀ 上的绝对能力值线性映射到 [0,1] 范围,我们可以获得相应的相对能力值 C_S^{rel}。

## 4 方法:数据-模型兼容性

### 4.1 DMC 公式

我们不是直接衡量数据的特征,而是让学生能力 C 扮演**“调节器”**的角色:我们采用两个评估指标,M_S^L(⋅) 和 M_S^H(⋅),分别针对能力最低和最高的学生模型设计,并让调节器在这两者之间平滑过渡。为不同能力的学生提供不同的评估标准,类似于教师为每个学生量身定制课程:重要的不是

相似文章

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。

通过混合策略蒸馏进行推理压缩

arXiv cs.AI

本文提出了混合策略蒸馏(MPD),这是一个将大教师模型的简洁推理行为转移到更小规模的学生模型的框架,在提升性能的同时,将令牌(token)使用量最多降低了27.1%。

通过动态Token选择实现分布对齐自蒸馏的鲁棒推理

arXiv cs.CL

提出了分布对齐自蒸馏(DASD),该方法在自蒸馏过程中动态过滤Token,以保留有益的逻辑修正,同时抑制分布不对齐的风格噪声,从而在数学、代码和常识推理基准上提升鲁棒推理能力。

推理监督的哪些特性与下游模型质量的提升相关?

arXiv cs.AI

本文研究内在数据指标,以在代价高昂的微调之前预测推理监督的效用,发现较小的模型受益于对齐导向的指标,而较大的模型则从冗长跟踪中获益,从而建立了一个尺度感知的框架来验证推理数据集。