SLAP:用于在线策略数据高效指令微调的分层损失剪枝方法
摘要
提出SLAP,一种用于大型语言模型高效指令微调的新型数据选择框架,它评估批次可学习性并采用分层采样,以在减少20-40%训练数据的情况下实现卓越性能。
arXiv:2605.23969v1 公告类型:新
摘要:指令微调优化了大型语言模型(LLM)的专业能力,但通常需要大量数据集和长时间训练。挑战在于通过识别有用数据并进行高效微调来开发特定能力。高质量且多样化的剪枝数据可以帮助模型以更低的成本实现无损性能。在本文中,我们提出 \textbf{SLAP},一种新颖的批次感知数据选择框架,它评估整个批次组合的可学习性而非单个数据点。SLAP通过分布感知的分层采样确保全面的数据分布覆盖,同时通过相对距离优化最大化批内多样性。通过利用海森近似梯度信息进行动态批次选择,SLAP在多种模型架构(LLaMA、ChatGLM)和多样化下游任务(包括多轮对话、多语言翻译和问答)上显著优于现有最先进方法。尤其值得注意的是,与完整数据集训练相比,SLAP使用少20-40\%的训练数据就能达到更优性能,大幅降低计算成本的同时保持或提升模型能力。这些结果确立了SLAP作为大型语言模型高效指令微调的有效方法。
查看缓存全文
缓存时间: 2026/05/26 08:59
# SLAP:基于分层损失的同策略数据高效指令调优剪枝
来源:https://arxiv.org/html/2605.23969
11institutetext:阿里巴巴国际数字商业集团,杭州,中国22institutetext:杭州灵驹智能AI实验室,杭州,中国33institutetext:杭州电子科技大学,杭州,中国
33email:renshugu@hdu\.edu\.cn###### 摘要
指令调优优化了大语言模型(LLM)的专门能力,但通常需要大量数据集和长时间训练。其挑战在于通过识别有用数据并高效微调来开发特定能力。高质量且多样化的剪枝数据可以帮助模型以更低成本实现无损性能。在本文中,我们提出 **SLAP**,一种新颖的批感知数据选择框架,它评估整个批次组合的可学习性,而非单个样本。SLAP 通过分布感知的分层采样确保全面的数据分布覆盖,同时通过相对距离优化最大化批内多样性。通过利用 Hessian 近似的梯度信息进行动态批次选择,SLAP 在多种模型架构(LLaMA、ChatGLM)和多样化的下游任务(包括多轮对话、多语言翻译和问答)中显著优于现有最先进方法。最值得注意的是,与完整数据集训练相比,SLAP 在使用少 20-40% 的训练数据的情况下实现卓越性能,大幅降低计算成本的同时保持或提升模型能力。这些结果确立了 SLAP 作为一种强大、高效且有效的大语言模型指令调优方法。
## 1 引言
指令调优已成为增强 LLM 能力的关键[18 (https://arxiv.org/html/2605.23969#bib.bib27)]。尽管最近的研究侧重于高质量数据收集和同策略训练策略[10 (https://arxiv.org/html/2605.23969#bib.bib14),31 (https://arxiv.org/html/2605.23969#bib.bib28),6 (https://arxiv.org/html/2605.23969#bib.bib29)],但数据质量的挑战依然存在,因为重复和低质量的数据会降低模型性能[9 (https://arxiv.org/html/2605.23969#bib.bib36)]。
当前的数据选择方法分为两类:离策略和同策略方法[36 (https://arxiv.org/html/2605.23969#bib.bib13),10 (https://arxiv.org/html/2605.23969#bib.bib14),37 (https://arxiv.org/html/2605.23969#bib.bib26)]。离策略方法依赖于静态特征,如损失[12 (https://arxiv.org/html/2605.23969#bib.bib6),29 (https://arxiv.org/html/2605.23969#bib.bib7)]、影响分数[14 (https://arxiv.org/html/2605.23969#bib.bib8),34 (https://arxiv.org/html/2605.23969#bib.bib24)]或基于嵌入的度量。然而,这些方法缺乏对模型更新的适应性。同策略方法[16 (https://arxiv.org/html/2605.23969#bib.bib43),4 (https://arxiv.org/html/2605.23969#bib.bib44),10 (https://arxiv.org/html/2605.23969#bib.bib14),20 (https://arxiv.org/html/2605.23969#bib.bib23),21 (https://arxiv.org/html/2605.23969#bib.bib5)]实时计算重要性分数,但需要大量计算资源[16 (https://arxiv.org/html/2605.23969#bib.bib43)]。虽然 Feng[10 (https://arxiv.org/html/2605.23969#bib.bib14)]通过正交代表性改进了批次选择,但数据的可学习性仍未得到探索。
本文提出一个同策略数据选择框架,称为 SLAP,它考虑了批次可学习性、数据覆盖、数据多样性和计算效率。SLAP 评估整个批次组合的可学习性,而非单个样本。为了实现全面的数据分布覆盖,SLAP 通过分布感知的分层采样近似核心集选择中的 NP-hard 全局搜索。我们从几何覆盖的角度为自然语言处理(NLP)任务中的核心集选择提供了理论分析。同时,SLAP 通过相对距离优化最大化批内多样性。这防止选择包含冗余信息的样本[10 (https://arxiv.org/html/2605.23969#bib.bib14)],并增加了数据的可学习性。受 Adam 算法[13 (https://arxiv.org/html/2605.23969#bib.bib34)]启发,我们整合了二阶矩累积梯度更新,以减少随机采样带来的波动,帮助模型一致地跨批次识别关键特征。
通过大量实验,我们证明 SLAP 在各种剪枝率和 LLM(LLaMa3、ChatGLM3)下均能达到最优损失,一致地保持或提升性能,同时将计算成本降低 20-40%。我们的结果显示在处理多轮对话、多语言翻译和复杂问答任务方面尤其强大,表明其在不同的自然语言处理(NLP)领域具有广泛适用性。此外,SLAP 表现出鲁棒的泛化能力,即使训练数据减少也能保持一致的性能,使其对于资源受限的场景特别有价值。
我们的贡献可总结如下:
1. 1. 我们提出了一种同策略批感知数据剪枝策略,通过分布感知的分层采样保留数据覆盖,并在批次内最大化数据多样性。
2. 2. 我们提出了一种 Hessian 近似的梯度优化方法,以最大化高维特征空间中的样本距离,这比嵌入方法更精确且更具动态性。
3. 3. 我们为大语言模型指令调优中的核心集选择提供了理论分析。此外,我们展示了如何利用高效近似在实践中解决 NP-hard 问题。
4. 4. 我们在三个多样化的下游数据集上评估了我们的方法:llama3-Chinese-chat(LLaMaQA)、WikiMatrix 和我们的网络文学对话数据集(NetLit)。结果表明,SLAP 在各种剪枝率和 LLM(LLaMa3 和 ChatGLM3)上以更低的计算成本一致地实现了优越性能。
## 2 相关工作
**核心集选择。** 现有方法[8 (https://arxiv.org/html/2605.23969#bib.bib31),35 (https://arxiv.org/html/2605.23969#bib.bib32)]专注于创建代表性的数据子集以实现高效训练。虽然传统方法优先考虑困难样本[26 (https://arxiv.org/html/2605.23969#bib.bib30)],但这可能引入异常值和噪声。尽管[33 (https://arxiv.org/html/2605.23969#bib.bib25)]通过选择中等难度样本来解决这个问题,但其方法缺乏对数据多样性的考虑。Zheng[36 (https://arxiv.org/html/2605.23969#bib.bib13)]使用 K 个分层的分层方法改善了分布覆盖,但未能保证所选样本的学习价值。
**同策略批次选择。** 最近的方法分为两类:依赖参考模型[5 (https://arxiv.org/html/2605.23969#bib.bib47),17 (https://arxiv.org/html/2605.23969#bib.bib48)]和不依赖参考模型[10 (https://arxiv.org/html/2605.23969#bib.bib14),22 (https://arxiv.org/html/2605.23969#bib.bib20)]。虽然 Feng[10 (https://arxiv.org/html/2605.23969#bib.bib14)]优化了方向多样性,Qin[22 (https://arxiv.org/html/2605.23969#bib.bib20)]通过选择性剪枝实现了加速,但两种方法在考虑数据可学习性或依赖固定阈值方面均存在局限性。SLAP 通过结合分层损失采样与基于距离的多样性控制克服了这些限制。
**特征选择。** 图像处理中传统的基于嵌入的方法[26 (https://arxiv.org/html/2605.23969#bib.bib30),36 (https://arxiv.org/html/2605.23969#bib.bib13),33 (https://arxiv.org/html/2605.23969#bib.bib25)]无法捕获动态训练贡献和模型变化。最近基于梯度的方法[32 (https://arxiv.org/html/2605.23969#bib.bib19),27 (https://arxiv.org/html/2605.23969#bib.bib33)]在动态特征捕获和影响估计方面显示出前景。SLAP 建立在这个方向上,利用梯度进行覆盖和多样性评估。
## 3 方法
参考标题图 1:SLAP 的工作流程。第一步:我们根据损失将一批数据分成 K 个分层。然后,根据归一化 exp(loss) 的概率选择 \|S\| 个数据,并计算每个分层中的数据数量。第二步:我们计算数据的 Hessian 近似梯度 H\_t 作为特征。第三步:对于分层 1,我们随机初始化一个点。我们计算到第一个点的 L\_2 距离,并选择同分层中距离最远的点作为第二个点。我们更新剩余点到已选点的最小距离,并重复选择 \|S\_i\| 个样本。对于分层 2 和 3,为了选择新分层中的点,我们需要考虑来自先前分层的已选点。最终,我们将获得一个相对彼此较远的多样化子集。
在这里,我们描述 SLAP 如何调整梯度和分层采样,以选择能有效诱导目标能力的样本。在 3.1 节 (https://arxiv.org/html/2605.23969#S3.SS1) 中,我们从理论分析开始,说明如何通过几何分析选择一个可以近似替代完整集合的核心集。我们的分析通过严格的数学推导将传统的覆盖和多样性度量扩展到高维梯度空间。鉴于 Hessian 在接近最优解时具有显著的收敛性和精度,我们在整个优化过程中利用 Hessian 近似的梯度(第 3.2 节 (https://arxiv.org/html/2605.23969#S3.SS2))。在第 3.3 节 (https://arxiv.org/html/2605.23969#S3.SS3) 中,我们详细描述了 SLAP 框架的整合,在该框架中,我们通过分层采样近似第 3.1 节 (https://arxiv.org/html/2605.23969#S3.SS1) 中提出的理论,并辅以动态同策略批次选择,从而实现 O(n) 的计算效率。
### 3.1 核心集选择的几何覆盖
Ozan Sener[24 (https://arxiv.org/html/2605.23969#bib.bib21)]从几何空间分布的角度解释了核心集选择,并证明当模型损失函数满足 Lipschitz 连续性时,零训练误差假设成立。零训练误差假设意味着,对于在核心集上训练的模型,可以在整个训练数据集上达到有界风险。Zheng[36 (https://arxiv.org/html/2605.23969#bib.bib13)]基于上述理论分析了计算机视觉任务。
下面我们为 NLP 任务提供一个分析,以解释在核心集上训练的 LLM 模型具有半径为 r 覆盖完整集合的训练有界风险。我们将 NLP 任务的完整数据集表示为 S=\{(x\_i, y\_i)\}\_{i=1}^N,其中 x\_i = (x\_i^1, x\_i^2, ..., x\_i^t) 是输入 token 序列,y\_i 是预测序列 y\_i = (y\_i^1, y\_i^2, ..., y\_i^t),其中 y\_i^t ∈ [C] 是 token 的词汇标签。在核心集 S' 上训练的模型具有以覆盖半径 r 为界的训练风险,如果损失函数 l(x, y, h\_S) 对于所有 y 是 λ\_l-Lipschitz 连续的,且 Lipschitz 常数有界为 L,并且交叉熵损失函数 l(x, y, h\_S') = -∑\_{i∈S'} y\_i log(ŷ\_i) 是 λ\_η-Lipschitz 连续的。h\_S' 是 h\_S 的 r 覆盖,且 ‖l(x, y; h\_S) - l(x, y; h\_S')‖ = 0,∀(x, y) ∈ S'。然后使用 Hoeffding 不等式并得出结论,以至少 1-γ 的概率:
\| (1/|S|) ∑\_{i∈S} l(x\_i, y\_i; h\_S) - (1/|S'|) ∑\_{j∈S} l(x\_j, y\_j; h\_S') \| ≤ r (λ\_l + λ\_η LC) + √(L^2 log(1/γ) / (2n)) (1)
这意味着给定一个完整集合 S 和 S 的覆盖半径 r,我们可以在原始分布 Pμ 上获得一个覆盖百分比 p。核心集就像一个半径为 r 的球,覆盖了整个集合,每个样本在高维空间中被表示为一个点。
### 3.2 Hessian 近似的梯度优化
样本的常见表示通常依赖于嵌入[26 (https://arxiv.org/html/2605.23969#bib.bib30),36 (https://arxiv.org/html/2605.23969#bib.bib13),33 (https://arxiv.org/html/2605.23969#bib.bib25)],这主要捕获样本的内在特征。然而,这种方法倾向于忽视训练过程中模型影响的重要性。相比之下,我们采用梯度表示[32 (https://arxiv.org/html/2605.23969#bib.bib19),27 (https://arxiv.org/html/2605.23969#bib.bib33)],因为梯度提供了样本相关性的动态度量,反映了每个样本对模型更新的影响。在高维空间中,梯度特征之间的距离有助于更清晰地区分样本之间的相关性。
在 NLP 任务中,我们采用序列级梯度方法,并利用 LLM 最后一层(lm_head)的许多 token 梯度之和来表示整个样本序列[36 (https://arxiv.org/html/2605.23969#bib.bib13)]。求和是为了保留重要 token 的特征权重。lm_head 处的梯度捕获了样本的高度抽象特征。该层的梯度定义如下:
gradient\_lm\_head = ∇L\_output(θ; h\_last\_layer) · h\_last\_layer^T (2)
其中 ∇L\_output(θ; h\_last\_layer) 表示输出层相对于模型参数 θ 的梯度。h\_last\_layer^T 是最后一层的隐藏状态。此外,对来自 lm_head 层的梯度使用 L\_2 范数[11 (https://arxiv.org/html/2605.23969#bib.bib50),2 (https://arxiv.org/html/2605.23969#bib.bib49)]。
鉴于 Hessian 在接近最优解时具有显著的收敛性和精度,我们用 Hessian 近似的梯度优化替代原始梯度范数。Hessian 近似梯度 H\_t 源自梯度 g\_t = ∇L\_output(θ; h\_last\_layer) 的范数,并通过二阶矩调整:
H\_t = ‖ g\_t / √(v̂\_t) ‖\_2 (3)
其中 H\_t ∈ R^D,D 表示模型的词汇表大小。v̂\_t 是二阶矩估计。
### 3.3 SLAP:优化同策略批次选择
在第 3.1 节 (https://arxiv.org/html/2605.23969#S3.SS1) 中,核心集选择的损失函数的上界是一个 NP-hard[24 (https://arxiv.org/html/2605.23969#bib.bib21),3 (https://arxiv.org/html/2605.23969#bib.bib4)] 问题。我们采用一种分层采样方法相似文章
修剪不安全票:一种资源高效的框架,用于更安全、更鲁棒的大型语言模型
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。
SLAT: 面向高效CoT推理的片段级自适应修剪
SLAT是一种用于思维链推理的片段级自适应修剪框架,通过抑制冗余片段将推理长度减少50%,同时保持准确性。
分解大语言模型的基本能力:在多任务指令微调中缓解跨任务干扰
本文提出Badit方法,将大语言模型参数分解为正交的高奇异值LoRA专家,以在多任务指令微调中缓解跨任务干扰。
LLM微调中数据选择的长期影响
本文研究了多阶段LLM微调中数据选择策略的长期影响,揭示了短视选择会损害未来适应能力。为此,提出了一种长期视角感知选择(LHAS)目标以缓解这些问题。
TEMPO:通过模式分离策略优化实现时间强制,用于可信的大语言模型回测
提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。