MADS: 模型感知的多样化核心集选择用于指令微调
摘要
本文提出MADS,一种利用来自大型语言模型的神经激活状态来选择多样化核心集进行指令微调的方法,表明仅15%的子集在多个基准测试上可以超越全数据集微调。
arXiv:2605.30857v1 公告类型:新
摘要:指令微调用于增强大型语言模型(LLM)遵循指令的能力。随着指令微调数据量的增加,选择最优核心集变得尤为重要。然而,确保核心集的多样性仍然是一个重大挑战。现有方法主要基于文本特征本身来区分不同的训练数据,与LLM自身对数据的理解和表示脱节。为解决这一问题,我们提出了一种模型感知的多样化核心集选择方法,该方法基于LLM推理过程中的神经激活状态来区分数据特征。该方法利用模型内在的激活特征作为覆盖选择的有效实例化,从而保证核心集的多样性。我们在涵盖五种不同任务的六个基准上广泛评估了我们的方法。在我们的方法中,由3B参数LLM选择的核心集在用于微调具有7B、8B和13B参数的更大模型时表现有效。在包含52K指令-响应对的Alpaca-GPT4数据集上的实验结果表明,由Llama-3.2-3B-Instruct选择的、大小为原始数据集15\%的核心集,在微调四个更大的基础模型时,与全数据集训练相比平均提升了2.5\%。实验结果表明,我们的方法在降低数据需求的同时提升了模型在多个下游任务上的性能。
查看缓存全文
缓存时间: 2026/06/01 09:29
# MADS:面向指令微调的模型感知多样化核心集选择 源码:https://arxiv.org/html/2605.30857
白怡 1,张文浩 1,陈瑶 2,薛娇 2,陈竹敏 1,任鹏杰 1
1 山东大学,青岛,中国
2 浪潮云,济南,中国
\{202235147, zhangwenhao\}@mail\.sdu\.edu\.cn, \{chenyao, xuejiao02\}@inspur\.com, \{chenzhumin,renpengjie\}@sdu\.edu\.cn
###### 摘要
指令微调用于增强大语言模型(LLM)遵循指令的能力。随着指令微调数据量的增加,选择最优核心集变得尤为重要。然而,确保核心集的多样性仍然是一个重大挑战。现有方法主要基于文本特征本身来区分不同训练数据,与 LLM 自身对数据的理解和表示相分离。为解决此问题,我们提出了一种模型感知的多样化核心集选择方法,该方法根据 LLM 推理过程中的神经激活状态来区分数据特征。这种方法利用模型内在的激活特征,实现了基于覆盖度的选择,从而确保核心集的多样性。我们在涵盖五个不同任务的六个基准上对我们的方法进行了广泛评估。在我们的方法中,由 3B 参数 LLM 选出的核心集在用于微调 7B、8B 和 13B 参数的更大模型时依然有效。在包含 52K 指令-响应对的 Alpaca-GPT4 数据集上的实验结果表明,由 Llama-3.2-3B-Instruct 选出的、大小为原始数据集 15% 的核心集,在微调四个更大的基础模型时,与使用完整数据集训练相比,平均提升 2.5%。实验结果表明,我们的方法在减少数据需求的同时,提升了模型在多个下游任务上的性能。
## 1 引言
随着人工智能技术的快速发展,GPT-4 (Achiam et al., 2023)、Mistral (Jiang et al., 2023)、Llama 3 (Dubey et al., 2024) 和 Qwen (Bai et al., 2023) 等大语言模型通过大规模训练数据和强大的计算能力,在各种任务中展现出卓越的性能。在预训练阶段,LLM 在大规模语料库上进行训练,以获取通用语言知识和逻辑推理能力。微调阶段旨在增强模型遵循指令和与人类偏好对齐的能力 (Sanh et al., 2022; Ouyang et al., 2022)。因此,精心策划的微调数据对于优化模型性能至关重要。早期获取高质量指令数据的方法包括通过众包收集指令-响应对,或利用强大的 LLM 生成指令数据集 (Sanh et al., 2022; Taori et al., 2023; Wang et al., 2023)。然而,随着可用训练数据量的增加,使用全部数据进行微调变得不切实际。此外,一些研究表明,增加指令数据量并不总能提升模型性能 (Shi et al., 2024; Wu et al., 2024)。Zhou et al. (2024) 发现,一个小而精心选择的指令数据集可以胜过更大的数据集。一些研究尝试基于实例级质量来选择数据 (Cao et al., 2024; Pang et al., 2024; Li et al., 2024a; Zhang et al., 2025)。相比之下,我们的方法侧重于数据集级特征,如多样性和覆盖度,这些已被证明在数据选择中比单个数据质量发挥更重要的作用 (Xia et al., 2024b)。基于多样性和覆盖度的方法选择与已选数据差异最大的新数据点。通过这些方法选择的子集在微调中通常能达到优于或与使用完整数据集相当的性能 (Chen et al., 2023; Lu et al., 2024; Das and Khetan, 2024; Shao et al., 2024)。然而,度量和确保数据的多样性和覆盖度仍然是一个重大挑战。我们将现有的指令数据选择方法分为两类:数据感知方法和模型感知方法。(1) 数据感知方法使用预训练语言模型如 BERT (Devlin et al., 2019) 提取数据表示,通过 k-means 聚类确保数据均匀分布,或直接使用强大的 LLM 分配类别标签 (Chen et al., 2023; Lu et al., 2024; Das and Khetan, 2024; Shao et al., 2024)。在选择多样化数据时,这些方法并未充分利用 LLM 的内部表示来指导数据选择。(2) 模型感知方法使用待微调或已微调的 LLM 来评估每个数据实例的必要性,选择对模型有益的数据 (Li et al., 2024b; Liu et al., 2024a; Li et al., 2024a; Zhang et al., 2025; Hu et al., 2025; Ranaldi and Freitas, 2024a,b)。这些方法倾向于选择对当前模型具有挑战性或可学习性的数据,而非多样性数据。
受上述挑战的启发,我们提出了一种新方法——面向指令微调的**模型感知多样化核心集选择** (https://anonymous.4open.science/r/MADS-5711/),该方法利用 LLM 的内部表示来选择既多样又具有高度代表性的核心集。MADS 的核心思想是利用 LLM 在推理过程中产生的神经元激活状态作为指令数据的表示,以选择多样化的数据子集。先前的研究表明,LLM 神经元对于不同的输入数据特征表现出不同的激活状态 (Elhage et al., 2022; Bricken et al., 2023; Bills et al., 2023; Cunningham et al., 2023; Luo et al., 2025; Helff et al., 2025; Shafran et al., 2025)。一个潜在的担忧是基于激活的表示能否可靠地捕获语义特征,因为已知 LLM 中的单个神经元具有多义性——一个神经元可能对多个不相关的概念作出响应 (Elhage et al., 2022)。然而,最近的可解释性研究表明,神经网络通过*神经元的线性组合*而非单个神经元来编码独立特征 (Bricken et al., 2023)。这一见解启发了我们的方法:我们并非追踪哪些单个神经元被激活,而是记录每条指令共同强烈激活的*神经元集合*作为其激活标签。这种群体级表示自然地捕获了 LLM 的组成特征结构,并缓解了多义性问题。为了实证验证激活标签与语义特征之间的相关性,我们进行了初步实验,从五个领域中各随机抽取 1000 条指令。通过对 Llama-3.2-3B-Instruct 多个层的激活标签进行 PCA 可视化和成对相似度分析,我们发现同一领域的指令比跨领域的指令共享显著更多的激活标签,这证实了激活标签能够捕获特定领域的语义特征。完整的实证分析(包括可视化图和详细的领域讨论)见第 4.4 节。受神经元激活模式与数据特征之间相关性的启发,我们首次将 LLM 的神经元激活状态用作多样化指令数据选择的数据表示。具体来说,MADS 计算原始数据集中的所有神经元激活,并筛选出覆盖所有激活模式的子集作为核心集。在核心集选择过程中,我们优先选择激活更丰富神经元集的复杂指令,因为复杂指令能更有效地增强 LLM 的理解和推理能力 (Lu et al., 2024)。与现有方法相比,MADS 提取模型级数据特征,确保所选数据子集具有优越的多样性、覆盖度和复杂性。此外,神经元激活可以在单次推理中提取,无需额外训练,从而降低了计算和时间成本。我们在指令遵循基准上进行了大量实验,结果表明,使用 MADS 选择的数据微调 LLM,在指令遵循性能上优于现有方法。我们还进行了进一步分析,以验证我们方法的覆盖度和鲁棒性。我们的贡献可以总结如下:
- • 我们提出了一种新颖的模型感知多样化指令数据选择方法,首次利用 LLM 的神经元激活状态实现多样化且复杂的指令数据选择。
- • 我们的方法在单次推理步骤中提取数据表示,无需手动定义数据类别或计算梯度,提高了指令数据选择的效率。
- • 我们在 Alpaca 上的实验表明,我们的方法仅使用 15% 的数据即可提升 LLM 在多种任务上的性能,优于其他方法,且提升更显著、更均衡。
## 2 相关工作
### 2.1 指令数据选择
**数据感知方法。**数据感知方法在数据选择过程中关注指令的质量、多样性和重要性 (Qin et al., 2024)。为确保指令质量,Cao et al. (2024) 设计了一套指标系统来评估文本质量,如词汇多样性和对话连贯性。此外,Xu et al. (2023); Liu et al. (2024b); Pang et al. (2024) 利用强大的 LLM(如 GPT-4)根据指令复杂度和响应准确性等多个方面来衡量数据质量。在多样性方面,最常见的方法是利用预训练语言模型(如 BERT)将数据嵌入高维空间,然后使用 k-means 或 k-center 等聚类方法选择均匀分布的子集 (Chen et al., 2023; Das and Khetan, 2024; Shao et al., 2024)。Lu et al. (2024) 利用 GPT-4 对指令进行分类,从而选择覆盖多个类别的数据子集。重要性也被视为一个标准,指的是指令-响应对对于 LLM 的难度。为了识别困难指令,Du et al. (2023) 使用奖励模型评估 LLM 能否对给定指令生成正确的响应。Song et al. (2024) 训练 BERT 作为分类器来区分简单和困难指令。这些方法通常依赖额外的模型对数据进行分类,使得数据选择过程独立于 LLM 的内部表示。
**模型感知方法。**模型感知方法通常将待选数据作为输入,使用 LLM 生成的概率分布、损失、梯度或其他模型相关指标来进行数据选择 (Zhang et al., 2025; Dai et al., 2025; Zhao et al., 2025; Zhou et al., 2025)。例如,Li et al. (2024a) 比较 LLM 在有和无指令上下文情况下产生的损失,以估计指令的难度。Hu et al. (2025) 开发了两种基于模型参数的指标,用于过滤掉噪声、不可学习以及损害泛化能力的样本。类似地,Liu et al. (2024a) 使用 LLM 的不同粒度不确定性来提高数据选择的准确性。除了这些仅需 LLM 进行推理的方法外,还有使用反向传播梯度作为数据选择标准的方法 (San Joaquin et al., 2024; Pan et al., 2024)。Yang et al. (2024) 利用训练轨迹选择数学数据。这些模型感知方法倾向于选择对 LLM 更困难的数据,而非更多样化的数据。
### 2.2 核心集选择
核心集选择的目标是从所有训练数据中选择一个子集,使得在该子集上训练的模型达到与在完整数据集上训练的模型相似的性能。核心集选择在经典机器学习中有深厚的根基。早期理论工作基于 k-median 和 k-means 聚类等几何方法建立了基础算法 (Har-Peled and Kushal, 2005),而后续研究将这些思想扩展到逻辑回归 (Munteanu et al., 2018)、基于梯度的选择 (Mirzasoleiman et al., 2020) 以及深度学习场景 (Paul et al., 2021)。与核心集选择密切相关的是主动学习,它迭代地选择信息量最大的样本进行标注 (Settles, 2009; Sener and Savarese, 2018)。主动学习中的不确定性采样和基于多样性的选择等方法具有相似的目标,但核心集选择更侧重于在固定预算下对整个数据分布的代表性,而主动学习则侧重于逐步提升模型性能。近年来,核心集选择在指令微调数据选择中得到了成功应用。例如,Chen et al. (2023) 使用 k-center 和 k-medoids 等基于距离的聚类方法来选择多样化子集。Shao et al. (2024) 也采用类似思想,通过两阶段聚类选择多样化数据。Das and Khetan (2024) 使用基于几何的 k-center 贪心方法最大化子集覆盖度。我们的方法也是一种基于覆盖度的方法,但区别于早期工作,我们利用 LLM 推理时的内在激活状态,而非文本相似度,来实现覆盖度。
## 3 方法
### 3.1 问题定义
给定指令数据集 ( \mathcal{D} = \{x_1, x_2, \dots, x_n\} ),其中 ( x_i ) 是一条指令(可能包含对应的响应)。核心集选择的目标是找到一个子集 ( \mathcal{S} subseteq \mathcal{D} ),满足 ( |\mathcal{S}| = k \ll n ),使得在 ( \mathcal{S} ) 上微调的模型与在 ( \mathcal{D} ) 上微调的模型相比,具有可比的性能。
### 3.2 方法概述
MADS 的核心思想是通过 LLM 推理时的神经元激活状态来表征每个指令,并利用这些激活特征选择高覆盖度、高多样性的指令子集。该方法包含两个阶段:(1)提取每个指令的激活标签;(2)基于激活标签的覆盖度选择核心集。为了进一步提高所选子集的难度,我们在第二阶段引入基于激活向量 L2 范数的难度引导。
### 3.3 激活标签提取
给定一个预训练但未微调的 LLM,我们将其最后一层之前所有 Transformer 层中每个前馈网络(FFN)的神经元激活作为特征。前向传播过程中,第 ( l ) 层 FFN 的中间隐状态 ( h_l ) 计算如下:
\[
h_l = \text{ReLU}(W_{\text{up}}^{(l)} \cdot x_l + b_{\text{up}}^{(l)})
\]
其中 ( x_l ) 是第 ( l ) 层注意力层的输出。对于每条指令 ( x_i ),我们收集所有层中隐藏单元的输出值,形成一个激活向量 ( A_i = [h_1; h_2; \dots; h_L] ),其中 ( L ) 是 Transformer 层数。接着,我们对每个神经元应用阈值 ( \tau ),如果 ( A_{i,j} > \tau ),则神经元 ( j ) 被视为激活。这产生一个二值激活标签 ( T_i in \{0,1\}^{d} ),其中 ( d ) 是所有层神经元的总数。直观上,激活标签表示 LLM 在理解指令时调用的概念组合。
### 3.4 基于覆盖度的核心集选择
基于覆盖度的选择的目标是选择一组指令,使得它们的激活标签集合并覆盖所有激活模式。我们形式化如下:给定所有激活标签的集合 ( \mathcal{T} = \{T_1, T_2, \dots, T_n\} ),选择子集 ( \mathcal{S}_{\text{cov}} ) 以最大化覆盖度:
\[
\text{覆盖度}(\mathcal{S}_{\text{cov}}) = \frac{|\bigcup_{i \in \mathcal{S}_{\text{cov}}} \text{sup}(T_i)|}{d}
\]
其中 ( \text{sup}(T_i) = \{j \mid T_{i,j} = 1\} ) 是指令 ( i ) 激活的神经元集合。这是一个最大覆盖问题,已知是 NP 难的,因此我们使用贪心算法进行近似。在每一步,我们选择使得新增覆盖神经元数量最多的指令。
为了进一步提高子集的难度,我们引入难度引导。对于每条指令 ( x_i ),计算其原始激活向量 ( A_i ) 的 L2 范数: ( s_i = \|A_i\|_2 )。范数更高的指令对应更复杂的输入(例如更长、更罕见的特征),这些指令更有价值。因此,我们首先根据 L2 范数对指令进行排序,然后从高范数到低范数按顺序贪心选择,直到子集大小达到 ( k )。如果一条指令没有增加新的覆盖,则跳过。最终的核心集 ( \mathcal{S} ) 由贪心选择的高覆盖度指令组成。
## 4 实验设置
### 4.1 数据集
我们在 Alpaca-GPT4 数据集上进行实验,该数据集包含 52K 条指令-响应对,由 GPT-4 生成。对于评估,我们使用六个基准测试,涵盖五个不同的任务:MMLU (Massive Multitask Language Understanding)、BBH (BIG-Bench Hard)、MathQA、HellaSwag、GSM8K 和 ARC-Challenge。MMLU 测试多任务知识;BBH 测试复杂推理;MathQA 和 GSM8K 测试数学推理;HellaSwag 和 ARC-Challenge 测试常识推理。我们在这些基准上报告模型的性能。
### 4.2 模型
对于激活标签提取,我们使用 Llama-3.2-3B-Instruct 作为基础模型,因为它是一个支持指令的预训练模型,具有适中的规模。对于微调,我们使用四个更大的基础模型:Llama-3-8B、Qwen2.5-7B、Mistral-7B 和 CodeLlama-13B。所有这些模型都是预训练的,但在实验前未进行指令微调。
### 4.3 基线方法
我们将我们的方法与以下基线进行比较:(1) 随机选择:从原始数据集中随机选择子集。(2) 困惑度(PPL)选择:使用模型损失(困惑度)选择最困难或最不困惑的实例。具体来说,我们使用 Llama-3.2-3B-Instruct 计算每条指令的损失,选择损失最高的实例(困难模式)或损失最低的实例(简单模式)。(3) 核心集选择(CSS)选择:使用基于 BERT 嵌入的 k-center 贪心方法选择多样化子集。(4) IFD (Li et al., 2024a):使用指令难度指标选择复杂指令。(5) DEITA (Liu et al., 2024a):使用基于 EL2N 的模型感知方法选择具有高不确定性的数据。(6) 全数据:使用原始数据集中的所有 52K 数据点。
### 4.4 激活标签与语义特征的关联性分析
为了验证激活标签能够捕获语义特征,我们对 Llama-3.2-3B-Instruct 进行了初步分析。我们从五个领域——科学、编程、数学、常识和开箱即用(即创意或非常规指令)——中分别随机抽取 1000 条指令。对于每条指令,我们提取其激活标签(即二值神经激活模式)。然后,我们对所有指令的激活向量进行 PCA 降维到二维进行可视化。结果显示,不同领域的数据在二维空间中形成了明显的聚类,同一领域的数据聚集在一起。此外,我们计算了同领域和跨领域指令对之间的激活标签相似度(Jaccard 相似度)。平均同领域相似度显著高于跨领域相似度(例如,科学 vs 数学:0.35;科学 vs 科学:0.62),这表明激活标签编码了领域特定的语义信息。这一发现支持我们使用激活标签作为多样性的代理。
(完整分析见图 1 和图 2,以及附录中的详细讨论。)
## 5 结果与讨论
### 5.1 主要结果
表 1 显示了在六个基准测试上的平均性能。我们的 MADS 方法在不同的微调基础模型上始终优于所有基线。当使用 Llama-3-8B 时,MADS 以 15% 的数据实现了 68.2% 的平均得分,而全数据训练得分为 65.7%,提升了 2.5%。随机选择达到 67.0%,PPL 困难选择达到 67.5%,CSS 达到 67.8%,IFD 达到 67.3%,DEITA 达到 67.1%。在 Qwen2.5-7B、Mistral-7B 和 CodeLlama-13B 上观察到类似的趋势。这些结果表明,使用 MS 选择的子集微调的模型不仅优于其他数据选择方法,而且超过了使用完整数据集训练的模型。我们推测这是因为 MADS 选择的高质量、高覆盖度数据避免了噪声和冗余数据的影响,从而提升了泛化能力。
### 5.2 消融研究
我们进行了消融研究,以评估 MADS 各组件的重要性:激活标签的使用、难度引导(基于 L2 范数)以及贪心算法。移除难度引导(即仅基于随机排序的覆盖度贪心选择)导致性能下降约 1.0%,表明高难度指令的贡献。使用随机二进制向量替换激活标签(保持稀疏度不变)导致性能下降约 3.5%,证实了激活标签捕获语义特征的重要性。使用随机子集选择替代覆盖度贪心导致性能下降约 4.0%,表明覆盖度机制的核心作用。
### 5.3 鲁棒性分析
我们分析了 MADS 对不同超参数设置的鲁棒性:所选数据比例(5%、10%、15%、20%、30%)、阈值 ( \tau )(从 0 到 0.5 变化)以及所选层(仅最后一层、中间层、所有层)。结果表明,MADS 在 10% 到 20% 的比例之间表现稳定,在 15% 时达到最佳性能。阈值 ( \tau ) 在 0.1 到 0.3 之间时,性能变化较小。使用所有层的激活标签优于仅使用部分层的效果,表明利用多粒度特征是有益的。
## 6 结论
在本文中,我们提出了一种新颖的模型感知多样化核心集选择方法 MADS,用于指令微调数据选择。MADS 利用 LLM 推理过程中的神经元激活状态作为数据表示,通过基于覆盖度的贪心选择算法选择高多样性、高难度指令。大量实验表明,MADS 在多个基准测试和多种基础模型上优于现有方法,仅使用 15% 的数据即可达到甚至超过全数据训练的性能。我们的工作为数据高效的语言模型微调提供了一种有效且高效的方法,并为进一步探索 LLM 内部特征在数据选择中的应用开辟了新途径。未来工作包括将 MADS 应用于多模态指令微调,以及探索基于激活标签的更高效子集选择算法。相似文章
SAT:用于无协调器即插即用多LLM训练的序列化智能体调优,具有单调改进保证
本文介绍了序列化智能体调优(SAT),一种无协调器的多LLM团队训练范式,提供单调改进保证和即插即用不变性,使较小的模型能够超越较大的模型。
分解大语言模型的基本能力:在多任务指令微调中缓解跨任务干扰
本文提出Badit方法,将大语言模型参数分解为正交的高奇异值LoRA专家,以在多任务指令微调中缓解跨任务干扰。
去中心化指令微调:冲突感知拆分与权重合并
MERIT 引入了冲突感知拆分和权重合并,用于去中心化指令微调,实现了无需跨分区梯度同步的性能提升。
Ada-MK:基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化
本文介绍了 Ada-MK,一种利用自动化基于有向无环图(DAG)的搜索来消除运行时分支并减少大语言模型(LLM)推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中,该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升,在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。
SLAP:用于在线策略数据高效指令微调的分层损失剪枝方法
提出SLAP,一种用于大型语言模型高效指令微调的新型数据选择框架,它评估批次可学习性并采用分层采样,以在减少20-40%训练数据的情况下实现卓越性能。