定制课程：基于动态数据-模型兼容性的以学生为中心的推理蒸馏

arXiv cs.AI 2026/05/29 04:00 论文

摘要

提出数据-模型兼容性（DMC）指标，用于评估推理数据集在蒸馏过程中与学生模型的匹配程度。实验表明，DMC与蒸馏性能强相关，且基于DMC动态选择数据集可进一步提升推理能力。

arXiv:2605.29229v1 公告类型: 新论文摘要：推理蒸馏将大型语言模型（LLM）的复杂推理能力迁移至较小模型，但其成功与否取决于训练数据与学生模型的匹配程度。本文引入数据-模型兼容性（DMC）指标，用于评估数据集在学生模型上进行推理蒸馏的适用性。DMC通过联合考虑数据质量、相对难度和学生能力提供评估。我们从两个角度验证了DMC的有效性：（1）DMC与推理蒸馏性能呈现强相关性；（2）以DMC作为数据选择标准可提升推理蒸馏性能。这两个发现在多个学生模型和任务上均得到一致验证。此外，由于每个数据集的DMC在训练过程中动态变化，我们的实验表明，基于DMC动态选择数据集可进一步提升性能。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:14

# 定制课程：通过动态数据-模型兼容性进行以学生为中心的推理蒸馏

来源：https://arxiv.org/html/2605.29229
黄嘉豪¹ 程菲²,³ 蒋俊峰³ 相泽明子¹,³ 
¹东京大学 ²京都大学 ³国立信息学研究所 
jiahao\-huang@g\.ecc\.u\-tokyo\.ac\.jp 
feicheng@i\.kyoto\-u\.ac\.jp 
{jiang, aizawa}@nii\.ac\.jp

###### 摘要

推理蒸馏将复杂推理能力从大型语言模型 (LLM) 迁移到较小的模型，但其成功取决于训练数据与学生模型的匹配程度。本文引入了数据-模型兼容性 (DMC) 指标，用于评估数据集对学生模型进行推理蒸馏的适用性。DMC 通过联合考虑数据质量、相对难度和学生能力来提供评估。我们从两个角度验证了 DMC 的有效性：(1) DMC 与推理蒸馏性能具有较强的相关性；(2) 使用 DMC 作为数据选择标准可提高推理蒸馏性能。这两个发现均在多个学生模型和任务上得到一致验证。此外，由于数据集的 DMC 在训练过程中动态变化，我们的实验表明，基于 DMC 动态选择数据集可以进一步提升性能。

定制课程：通过动态数据-模型兼容性进行以学生为中心的推理蒸馏

黄嘉豪¹ 程菲²,³ 蒋俊峰³ 相泽明子¹,³ 
¹东京大学 ²京都大学 ³国立信息学研究所 
jiahao\-huang@g\.ecc\.u\-tokyo\.ac\.jp 
feicheng@i\.kyoto\-u\.ac\.jp 
{jiang, aizawa}@nii\.ac\.jp

## 1 引言

近年来，出现了大量推理模型，包括 OpenAI o1 (Jaech et al., 2024 (https://arxiv.org/html/2605.29229#bib.bib11))、DeepSeek-R1 (Guo et al., 2025 (https://arxiv.org/html/2605.29229#bib.bib12)) 和 QwQ (Team, 2025 (https://arxiv.org/html/2605.29229#bib.bib13))。这些大型模型在逻辑和数学等依赖推理的任务上表现出色。然而，中小型模型的推理能力发展仍不充分。由于资源消耗更低、灵活性更高，较小模型在需要兼顾效率和效果的场景中被更广泛采用。因此，研究人员致力于将大模型的推理能力压缩到小模型中，我们在这篇论文中称之为**推理蒸馏**。

在推理蒸馏中，学生模型在包含问题、答案以及教师模型生成的相应推理过程的数据集上进行微调。先前的工作 (Zhang et al., 2025b (https://arxiv.org/html/2605.29229#bib.bib1); Xu et al., 2025 (https://arxiv.org/html/2605.29229#bib.bib3); You et al., 2017 (https://arxiv.org/html/2605.29229#bib.bib24); Li et al., 2025c (https://arxiv.org/html/2605.29229#bib.bib29)) 主要关注如何选择教师模型和推理过程生成方法的组合，以提升推理蒸馏的性能。然而，我们认为教师模型和生成方法只是影响推理蒸馏的间接因素，而最直接的因素则是推理数据集和学生模型的特征。在这篇论文中，我们旨在从一个新的视角研究推理蒸馏，聚焦于数据集和学生模型特征的选择、评估和组合。

**研究问题1：** 数据集和学生模型的哪些特征能够有效反映推理蒸馏的性能？

我们从三个角度分析数据集和学生模型的特征：**数据质量** (Q)（数据的一个特征）、**相对难度** (D)（数据和学生模型的联合特征）以及**学生能力** (C)（学生模型的一个特征）。它们的精确定义和计算在第3.2节 (https://arxiv.org/html/2605.29229#S3.SS2) 中给出。

基于这些特征，我们提出数据-模型兼容性 (DMC)，将其表述为 Q、D 和 C 的函数，用于评估数据集对学生模型进行推理蒸馏的适用性。我们从两个方面证明了其有效性：(i) DMC 值与跨数据集和学生模型的推理蒸馏性能高度相关；(ii) 由高 DMC 数据构建的数据集能训练出性能更好的学生模型。

相对难度 D 和学生能力 C 本质上是动态的，因为它们依赖于模型在训练过程中不断变化的能力。因此，具有高 DMC 值的数据也会随着训练动态变化。由此我们提出第二个研究问题：

**研究问题2：** 根据不断变化的 DMC 值进行动态数据选择能否进一步提升推理蒸馏的性能？

通过这个研究问题，我们解决了两个研究空白。首先，我们提出了一种创新的推理蒸馏数据选择方法，能够自适应地选择最兼容的训练数据，使数据选择过程响应灵敏且贴合模型的推理水平。其次，与仅依赖困惑度等传统动态数据选择方法 (Li et al., 2024a (https://arxiv.org/html/2605.29229#bib.bib32); Zhang et al., 2025a (https://arxiv.org/html/2605.29229#bib.bib49)) 相比，DMC 是基于大量模型-数据实验经验推导得出的，提供了更扎实的数据驱动基础。

总之，本文的主要贡献如下：(1) 我们提出了数据-模型兼容性 (DMC) 指标，该指标联合建模了数据质量、相对难度和学生能力三个特征，能够有效评估一个数据集是否适合对学生模型进行推理蒸馏。(2) 我们提出了一种基于 DMC 的动态数据选择方法，能够在训练过程中自适应地重新选择训练数据，以匹配学生不断变化的能力，从而有效提升测试集上的推理蒸馏性能。

## 2 相关工作

#### LLM 的推理能力

研究表明，在问答 (QA) 任务中向 LLM 引入推理过程可以提升模型性能 (Wei et al., 2022 (https://arxiv.org/html/2605.29229#bib.bib18); Kojima et al., 2022 (https://arxiv.org/html/2605.29229#bib.bib14))。已有多种方法被提出用于在大型语言模型 (LLM) 中生成推理过程，例如普通的思维链 (CoT) (Kojima et al., 2022 (https://arxiv.org/html/2605.29229#bib.bib14); Hsieh et al., 2023 (https://arxiv.org/html/2605.29229#bib.bib2); Mukherjee et al., 2023 (https://arxiv.org/html/2605.29229#bib.bib5); Mitra et al., 2023 (https://arxiv.org/html/2605.29229#bib.bib6); Lewkowycz et al., 2022 (https://arxiv.org/html/2605.29229#bib.bib4))、思维树 (Yao et al., 2023 (https://arxiv.org/html/2605.29229#bib.bib22))、反向思维 (Chen et al., 2024b (https://arxiv.org/html/2605.29229#bib.bib19)) 和自我反思 (Li et al., 2025b (https://arxiv.org/html/2605.29229#bib.bib20), a (https://arxiv.org/html/2605.29229#bib.bib21))。

#### 数据选择

近年来，随着数据生成方法的增多，数据选择越来越受到关注，以进一步提升推理蒸馏的效果。从方法角度来看，Zhang et al. (2025b (https://arxiv.org/html/2605.29229#bib.bib1))、Tian et al. (2025 (https://arxiv.org/html/2605.29229#bib.bib9)) 和 Chen et al. (2025 (https://arxiv.org/html/2605.29229#bib.bib8)) 将教师模型和生成方法视为推理蒸馏的重要因素。从数据角度来看，通常使用质量和难度。质量通常由 LLM 评估器 (Chen et al., 2024a (https://arxiv.org/html/2605.29229#bib.bib25); Liu et al., 2024b (https://arxiv.org/html/2605.29229#bib.bib26); Lee et al., 2024 (https://arxiv.org/html/2605.29229#bib.bib10)) 或奖励模型 (Xu et al., 2024 (https://arxiv.org/html/2605.29229#bib.bib27)) 来评估。难度可以通过困惑度 (PPL)、条件困惑度 (CPPL) (Li et al., 2024b (https://arxiv.org/html/2605.29229#bib.bib28))、IFD (Li et al., 2024a (https://arxiv.org/html/2605.29229#bib.bib32)) 等方法量化。最近也引入了结合两者指标的方法，如兼容性调整奖励 (CAR) (Xu et al., 2025 (https://arxiv.org/html/2605.29229#bib.bib3))。与这些方法不同，我们的 DMC 是数据驱动的，并且明确以学生不断变化的能力为条件，在整个训练过程中选择最匹配学生当前状态的数据，而不是依赖固定的、手工设计的假设（例如，质量或难度越高越好）并忽略学生模型本身。

## 3 预备知识

参考图注图 1：本文的流程。DMC 指标在第 4 节 (https://arxiv.org/html/2605.29229#S4) 中表述；两个研究问题在第 6 节 (https://arxiv.org/html/2605.29229#S6) 中进行实证验证。

### 3.1 问题形式化

图 1 (https://arxiv.org/html/2605.29229#S3.F1) 说明了本研究问题的形式化以及一些具体设置。推理蒸馏从一个原始的问答 (QA) 数据集 D₀ = {(q, a)} 开始，其中 q 是问题，a 是标准答案。对于每个问答对，教师模型 T 使用增强方法 Aug 生成推理过程 r。因此，整个数据集可以扩展为推理数据集 D(T, Aug) = {(q, r, a)}。为了确保推理过程的多样性，可以使用多个教师模型和增强方法。我们将所有推理数据集聚合到一个推理数据池中：U = ⋃_{T, Aug} D(T, Aug)。

为了进行比较，我们从数据池中采样若干子集 Dᵢ ⊆ U。一方面，我们在 Dᵢ 上微调学生模型 S，并将其测试集性能记为 P_S(Dᵢ)。另一方面，我们旨在确定一个指标 M 来评估使用 Dᵢ 对学生模型 S 进行推理蒸馏的适用性，记为 M_S(Dᵢ)。[M_S(Dᵢ)]|ᵢ 和 [P_S(Dᵢ)]|ᵢ 之间的高相关性表明 M 是一个有效的指标。

### 3.2 基础特征

一个数据集是否有利于推理蒸馏并非数据本身的固有属性；它取决于数据与特定学生模型的匹配程度。因此，我们沿着三个互补的特征来描述这种匹配度。**数据质量 (Q)** 捕获数据侧：一个不正确、不连贯或未能得出答案的推理链，无论哪个模型在其上训练，都会教会学生错误的模式。**相对难度 (D)** 捕获数据与模型之间的交互：一个太难的链无法被当前学生吸收，而一个太简单的链则传递很少的新信号，因此重要的是相对于学生的难度。**学生能力 (C)** 捕获模型侧：由于同一份数据对不同学生的适合程度不同，忽略学生的指标根本无法表达兼容性。综合起来，Q、D 和 C 覆盖了数据、模型及其交互，这使得它们成为分析数据-模型兼容性 (DMC) 的自然基础。本小节描述每个特征的计算方式；它们如何集成到 DMC 指标中将在第 4 节 (https://arxiv.org/html/2605.29229#S4) 中介绍。

#### 数据质量 Q

数据质量是评估推理过程 r 是否正确、准确、连贯并导向标准答案的指标。遵循 Xu et al. (2025 (https://arxiv.org/html/2605.29229#bib.bib3), 2024 (https://arxiv.org/html/2605.29229#bib.bib27)) 的做法，我们采用最先进的奖励模型来评分每个单条数据的质量；具体的奖励模型在第 5 节 (https://arxiv.org/html/2605.29229#S5) 中详述。对于每个子集 Dᵢ，我们将数据集的质量定义为其内部所有数据条目的平均质量。由于数据质量仅取决于数据本身，因此省略学生模型 S 的下标，记为 Q(Dᵢ)。

#### 相对难度 D

我们强调，这里的难度不是数据的固有属性，而是始终**相对于给定的学生模型**来定义的：它衡量该特定模型发现推理链难以理解的程度，因此同一条链对于强学生来说可能容易，而对于弱学生来说可能困难。困惑度 (PPL)、条件困惑度 (CPPL) 和指令跟随难度 (IFD) (Li et al., 2024a (https://arxiv.org/html/2605.29229#bib.bib32)) 是评估这种相对难度的主流指标。对于学生模型 S，推理 r 的 PPL 可通过下式计算：

PPL_S(r) = exp( -1/N ∑_{i=1}^N log p_S(r^i | r^{1:i-1}) )  (1)

其中 r^i 表示 r 的第 i 个 token，N 是 r 中的 token 数量。CPPL 可通过 PPL_S(r|q) 计算，IFD 定义为 CPPL 与 PPL 的比率。与 Q 类似，数据集 Dᵢ 对学生模型 S 的难度定义为 Dᵢ 中所有数据样本的平均难度。

#### 学生能力 C

先前的工作主要关注数据的特征，而忽视了模型本身；因此，我们引入学生能力 C 作为 DMC 公式中的另一个关键因素。

学生能力的概念受到人类教育中分班考试的启发：首先评估学生的能力，然后设计合适的训练课程。从数据池 U 中，我们分离出一个由高质量样本组成的小子集 Dₚ，作为学生能力的初步评估分班测试；这些样本被保留下来，不参与后续训练，采样细节在第 5 节 (https://arxiv.org/html/2605.29229#S5) 中给出。我们认为学生能力是模型能够理解来自分班测试的推理数据的程度。因此，我们将学生模型 S 的绝对能力值定义为：

C_S^{abs} = E_{(q,r) ∈ Dₚ} 1/N ∑_{i=1}^N log p_S(r^i | q, r^{1:i-1})  (2)

C_S^{abs} 的值越高，表明对分班测试中高质量推理的信心和熟悉程度越高，从而反映出更强的能力。通过将不同学生模型在各种原始数据集 D₀ 上的绝对能力值线性映射到 [0,1] 范围，我们可以获得相应的相对能力值 C_S^{rel}。

## 4 方法：数据-模型兼容性

### 4.1 DMC 公式

我们不是直接衡量数据的特征，而是让学生能力 C 扮演**“调节器”**的角色：我们采用两个评估指标，M_S^L(⋅) 和 M_S^H(⋅)，分别针对能力最低和最高的学生模型设计，并让调节器在这两者之间平滑过渡。为不同能力的学生提供不同的评估标准，类似于教师为每个学生量身定制课程：重要的不是

定制课程：基于动态数据-模型兼容性的以学生为中心的推理蒸馏

相似文章

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

通过混合策略蒸馏进行推理压缩

通过动态Token选择实现分布对齐自蒸馏的鲁棒推理

如何微调推理模型？一个教师-学生协作框架用于合成学生一致的SFT数据

推理监督的哪些特性与下游模型质量的提升相关？

提交意见反馈