LLM微调中数据选择的长期影响

arXiv cs.LG 2026/06/01 04:00 论文

摘要

本文研究了多阶段LLM微调中数据选择策略的长期影响，揭示了短视选择会损害未来适应能力。为此，提出了一种长期视角感知选择（LHAS）目标以缓解这些问题。

arXiv:2605.30537v1 公告类型：新摘要：数据选择越来越多地用于降低大语言模型（LLM）微调成本，近期方法根据当前效用、多样性、质量或影响力对样本进行优先级排序。本文研究了一个不同的问题：当微调分多个阶段进行时，当前看似最优的选择策略是否会让模型在后续阶段适应性下降？我们引入了LLM数据选择的长期视角，其中选择器的评估不仅基于即时任务性能，还基于未来适应速度、遗忘、能力失衡和分布外鲁棒性。我们在统一的多阶段协议下比较了具有代表性的随机、基于损失、基于梯度、基于多样性、基于质量和基于效用-多样性的选择族。通过旨在实例化该协议的控制实验，我们展示了短视选择器如何出现排名反转：它们提升了当前阶段，却减慢了后续学习并加剧了遗忘。我们将这种行为形式化为\emph{短视选择}，提供了简单的局部分析说明其可能原因，并提出了一个诊断性长期视角感知选择（LHAS）目标，该目标在即时效用的基础上增加了覆盖度、未来代理迁移和抗集中项。本研究认为，数据选择应被评估为一种训练干预手段，它塑造模型的学习轨迹，而不仅仅是局部数据效率机制。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:26

# 大语言模型微调中数据选择的长期影响
来源：https://arxiv.org/html/2605.30537
杨宇鑫 上海大学

&曾奥雄 华东师范大学

&杨向全 华东师范大学

###### 摘要

数据选择越来越多地被用于降低大语言模型（LLM）微调的成本，近期的方法通常根据样本的当前效用、多样性、质量或影响力进行排序。本文研究了一个不同的问题：当微调在多个阶段进行时，那些当前看来最优的选择策略是否会导致模型后续的可适应性降低？我们引入了LLM数据选择的长期视野视角，在该视角下，选择器的评估不仅依据当前任务表现，还依据未来的适应速度、遗忘程度、能力失衡和分布外鲁棒性。我们在一个统一的多阶段协议下，比较了具有代表性的随机、基于损失、基于梯度、基于多样性、基于质量和基于效用-多样性的选择系列。通过旨在实例化此协议的受控实验，我们展示了短期选择器如何出现排名反转：它们提升了当前阶段的表现，却减慢了后续学习并增加了遗忘。我们将这种行为形式化为 **短视选择 (myopic selection)**，提供了一个简单的局部分析解释其为何会发生，并提出一个诊断性的长期视野感知选择 (LHAS) 目标函数，该函数在即时效用的基础上增加了覆盖度、未来代理迁移和反集中项。本文论证了数据选择应被视为一种塑造模型学习轨迹的训练干预手段，而不仅仅是一种局部数据效率机制。

## 1 引言

监督微调（SFT）是将大语言模型适配到下游任务的标准方法之一 (Brown et al., 2020 (https://arxiv.org/html/2605.30537#bib.bib3); Achiam et al., 2023 (https://arxiv.org/html/2605.30537#bib.bib2); Touvron et al., 2023 (https://arxiv.org/html/2605.30537#bib.bib50); Bai et al., 2023 (https://arxiv.org/html/2605.30537#bib.bib4))。随着指令数据集在规模和异构性上的增长，训练所有可用示例通常效率低下，有时甚至有害：低质量示例可能放大偏差，冗余示例浪费计算资源，过于狭窄的混合可能使模型过拟合到某一瞬时的能力概况。这些担忧催生了基于质量过滤、影响估计、主动学习、核心集覆盖、在线批次评分以及去重或多样化的数据选择方法 (Albalak et al., 2024 (https://arxiv.org/html/2605.30537#bib.bib5); Sener and Savarese, 2018 (https://arxiv.org/html/2605.30537#bib.bib19); Ash et al., 2020 (https://arxiv.org/html/2605.30537#bib.bib20); Coleman et al., 2020 (https://arxiv.org/html/2605.30537#bib.bib21); Chen et al., 2024 (https://arxiv.org/html/2605.30537#bib.bib12); Zhou et al., 2023 (https://arxiv.org/html/2605.30537#bib.bib13); Xia et al., 2024 (https://arxiv.org/html/2605.30537#bib.bib11); Lee et al., 2021 (https://arxiv.org/html/2605.30537#bib.bib14); Tirumala et al., 2023 (https://arxiv.org/html/2605.30537#bib.bib15); Zou et al., 2025a (https://arxiv.org/html/2605.30537#bib.bib1))。

大部分文献都是在单一微调阶段内评估选择策略。当目标是用固定预算解决单一任务时，这是很自然的，但它忽略了现代模型适配的一个重要特性：微调通常是顺序进行的。一个部署的助手可能首先在通用指令上微调，然后进行数学推理，接着是代码，再是安全数据，最后是特定领域的语料。在这种设置下，在阶段 *t* 选择的子集 *St* 不仅仅是节省计算资源。它改变了所有后续阶段开始的参数状态。

本文提出的问题是：高效的数据选择是否会使模型越来越专业化？我们所说的专业化不仅仅是指选择器改变了当前批次的标签分布。我们指的是选择可能会推动表示、梯度和参数高效适配器向一组狭窄的能力方向收敛，从而降低未来的可学习性或鲁棒性。一个样本可能对当前阶段非常有用，但同时也是一个糟糕的长期训练干预。

我们将这种现象称为 **短视选择 (myopic selection)**：当一个选择策略以牺牲未来的适应性、保持力或分布外（OOD）鲁棒性为代价来最大化当前效用时，它就是短视的。这个框架引出了五个研究问题。RQ1：短期表现优异的选择器是否也是长期表现优异的选择器？RQ2：选择器如何影响后续任务的学习速度？RQ3：它们是否会增加遗忘或能力失衡？RQ4：多样性是否足以防止长期视野偏差？RQ5：一个轻量级的长期视野目标函数能否改善这种权衡？

这种区别之所以重要，是因为在线选择方法通常使用在当前阶段结束时停止的曲线进行评估。这些曲线回答了某个方法是否使用更少的token来解决今天的任务目标，但它们没有回答该方法是否将模型置于一个使得明天的任务目标更容易或更难实现的初始状态。特别是，两个选择器可能达到相同的当前验证分数，但导致截然不同的更新协方差、适配器子空间和能力覆盖范围。因此，长期视野评估需要同时衡量模型 **到达了哪里** 以及它是 **如何到达那里** 的。

我们做出了四个贡献。首先，我们形式化了LLM微调的长期视野数据选择问题，并定义了衡量未来适应速度、遗忘、能力失衡、OOD鲁棒性以及 **短视差距 (myopia gap)** 的指标。其次，我们指定了一个统一的协议，用于在相等token预算下比较有代表性的选择系列。第三，我们给出了一个简单的理论分析，说明为什么两个在当前阶段增益相等的选择器在未来适应成本上可能存在差异。第四，我们通过受控实验对该协议进行压力测试，并引入了长期视野感知选择 (LHAS)，这是一种诊断性基线方法，展示了覆盖度和反集中项如何减轻短视选择的长期副作用。

## 2 相关工作

#### LLM微调的在线数据与批次选择。

在线选择方法随着训练进程对示例进行评分，通常使用损失、梯度幅度、不确定性、多样性或模型内部效用估计。经典的在线批次选择优先选择高损失样本 (Loshchilov and Hutter, 2015 (https://arxiv.org/html/2605.30537#bib.bib6); Jiang et al., 2019 (https://arxiv.org/html/2605.30537#bib.bib8))，重要性抽样方法利用梯度信息 (Katharopoulos and Fleuret, 2018 (https://arxiv.org/html/2605.30537#bib.bib7))，RHO-Loss 强调那些可学习但尚未被学习的示例 (Mindermann et al., 2022 (https://arxiv.org/html/2605.30537#bib.bib9))，而 GREATS 则在每次训练迭代中选择高质量数据 (Wang et al., 2024 (https://arxiv.org/html/2605.30537#bib.bib10))。近期面向LLM的工作还研究了基于影响的指令微调和效用-多样性评分 (Xia et al., 2024 (https://arxiv.org/html/2605.30537#bib.bib11); Zou et al., 2025a (https://arxiv.org/html/2605.30537#bib.bib1))。UDS 是本工作的最直接出发点：它结合了基于前向传播 logits 的效用项和使用历史记忆缓冲区的样本间多样性估计 (Zou et al., 2025a (https://arxiv.org/html/2605.30537#bib.bib1))。我们的目标是互补的。我们要问的是：当局部定义效用和多样性时，它们对于顺序适配是否足够？

这一区别将我们的工作与那些旨在改进当前阶段评分规则的工作区分开来。一个新的效用评分可能会改善当前训练曲线下的面积，但如果该评分反复强调相同的能力方向，它仍然是短视的。反之，一个当前阶段准确率稍低的选择器，如果它能保持广泛的塑性，那么更可取。因此，我们的比较将选择器视为优化器的一部分，而不仅仅是预处理过滤器。

#### 数据估值、剪枝与课程学习。

数据选择在主动学习 (Settles, 2009 (https://arxiv.org/html/2605.30537#bib.bib48); Sener and Savarese, 2018 (https://arxiv.org/html/2605.30537#bib.bib19); Ash et al., 2020 (https://arxiv.org/html/2605.30537#bib.bib20))、数据集制图 (Swayamdipta et al., 2020 (https://arxiv.org/html/2605.30537#bib.bib44))、基于代理的选择 (Coleman et al., 2020 (https://arxiv.org/html/2605.30537#bib.bib21))、数据剪枝 (Sorscher et al., 2022 (https://arxiv.org/html/2605.30537#bib.bib47)) 以及基于梯度或损失的示例评分 (Toneva et al., 2019 (https://arxiv.org/html/2605.30537#bib.bib43); Paul et al., 2021 (https://arxiv.org/html/2605.30537#bib.bib45); Mirzasoleiman et al., 2020 (https://arxiv.org/html/2605.30537#bib.bib46)) 方面有着悠久的历史。在语言模型训练中，重要性重采样、去重和多样化进一步表明，数据混合可以同时改变效率和泛化能力 (Xie et al., 2023 (https://arxiv.org/html/2605.30537#bib.bib16); Lee et al., 2021 (https://arxiv.org/html/2605.30537#bib.bib14); Tirumala et al., 2023 (https://arxiv.org/html/2605.30537#bib.bib15))。指令微调也强调，小而精心策划的数据集可以匹配甚至超越大得多的混合集 (Zhou et al., 2023 (https://arxiv.org/html/2605.30537#bib.bib13); Chen et al., 2024 (https://arxiv.org/html/2605.30537#bib.bib12))。这些方法通常假设一个固定的目标分布或单一的优化目标。在多阶段LLM微调中，目标分布本身是演变的。一个对当前目标最优的选择器可能会改变表示，而这对于后续目标的学习来说是至关重要的。

课程学习提供了另一个有用的类比 (Wang et al., 2021 (https://arxiv.org/html/2605.30537#bib.bib17); Xu et al., 2020 (https://arxiv.org/html/2605.30537#bib.bib18))。好的课程可以通过以有益的次序呈现示例来加速训练，但过于狭窄的课程也可能延迟对后续所需技能的暴露。我们的设置有所不同，因为数据分布不仅被排序，而且被过滤：未被选中的示例在该阶段永远不会贡献梯度。因此，长期效应比单纯的重新排序更强。

#### 持续学习与稳定性-可塑性。

持续学习研究获取新技能与保持旧技能之间的平衡。代表性方法包括对重要参数变化进行正则化 (Kirkpatrick et al., 2017 (https://arxiv.org/html/2605.30537#bib.bib36); Zenke et al., 2017 (https://arxiv.org/html/2605.30537#bib.bib39))、基于蒸馏的保持 (Li and Hoiem, 2016 (https://arxiv.org/html/2605.30537#bib.bib38))、回放或样本记忆 (Rebuffi et al., 2017 (https://arxiv.org/html/2605.30537#bib.bib37))、约束梯度方法 (Lopez-Paz and Ranzato, 2017 (https://arxiv.org/html/2605.30537#bib.bib40); Chaudhry et al., 2019 (https://arxiv.org/html/2605.30537#bib.bib41)) 以及架构扩展 (Rusu et al., 2016 (https://arxiv.org/html/2605.30537#bib.bib42))。近期的高效持续适应方法进一步使用稀疏扩展、去相关和引导随机投影等机制来减少干扰和适应成本 (Zou et al., 2025b (https://arxiv.org/html/2605.30537#bib.bib24), c (https://arxiv.org/html/2605.30537#bib.bib25); Li et al., 2026 (https://arxiv.org/html/2605.30537#bib.bib26))。我们关注同样的顾虑，但将干预手段从模型架构或正则化器转移到数据选择器。选择器是持续学习系统的一部分，因为它决定了哪些梯度被允许塑造模型。

#### 参数高效适配。

参数高效微调（PEFT）通过更新一小部分参数来适配大型预训练模型，包括适配器 (Houlsby et al., 2019 (https://arxiv.org/html/2605.30537#bib.bib30))、前缀微调 (Li and Liang, 2021 (https://arxiv.org/html/2605.30537#bib.bib31))、提示微调 (Lester et al., 2021 (https://arxiv.org/html/2605.30537#bib.bib32))、P-tuning 变体 (Liu et al., 2022 (https://arxiv.org/html/2605.30537#bib.bib33))、LoRA (Hu et al., 2022 (https://arxiv.org/html/2605.30537#bib.bib29)) 以及量化 LoRA 风格训练 (Dettmers et al., 2023 (https://arxiv.org/html/2605.30537#bib.bib34))；最近的综述将这些方法组织为一个广泛的、可扩展的适配工具系列 (Ding et al., 2023 (https://arxiv.org/html/2605.30537#bib.bib35))。PEFT 使得重复的 LLM 适配变得可行，但受限的更新容量仍然可能跨任务积累干扰。近期多任务 PEFT 工作探索了用于领域特定适配的 MoE-LoRA 特化 (Yang et al., 2026a (https://arxiv.org/html/2605.30537#bib.bib22))、LoRA 更新的上下文感知调制 (Yang et al., 2026b (https://arxiv.org/html/2605.30537#bib.bib23)) 以及用于任务解耦的秩级混合机制 (Zou et al., 2025d (https://arxiv.org/html/2605.30537#bib.bib27))。我们的协议可以配合全参数微调或 LoRA 运行；在主设计中我们使用 LoRA，因为它在计算上更现实，并且使得适配器轨迹分析更直接。

LoRA 设置也是对选择诱导专业化的一种压力测试。当适配容量被限制为低秩更新时，一个反复选择具有对齐梯度的示例的选择器可能会消耗可用更新子空间的大部分。这使得观察后续任务是否必须与狭窄的适配器方向作斗争变得更容易。

## 3 问题设置与理论分析

设 *M₀* 表示预训练模型，*D₁:ₜ = {D₁, ..., Dₜ}* 表示一系列微调阶段。在阶段 *t*，选择策略 *πₜ* 观测当前模型 *Mₜ₋₁*、候选池 *Dₜ* 以及可选的先前历史 *Hₜ₋₁*，然后在固定预算下选择一个子集 *Sₜ ⊂ Dₜ*。在 *Sₜ* 上训练得到 *Mₜ*。

大多数选择器优化一个即时目标：

*U_imm(πₜ) = Perf(Mₜ, Vₜ) − Perf(Mₜ₋₁, Vₜ)* (1)

其中 *Vₜ* 是当前阶段的验证集。一个长期视野的目标函数必须额外考虑未来的可学习性和保持力：

*U_long(π₁:ₜ) = Σₜ₌₁ᵀ Perf(Mₜ, Vₜ) + α Σₜ₌₁ᵀ⁻¹ AUCₜ→ₜ₊₁ − β Σₜ₌₁ᵀ Fₜ + γ R_ood* (2)

其中 *AUCₜ→ₜ₊₁* 衡量在阶段 *t* 训练后对下一阶段的适应速度，*Fₜ* 衡量相对于阶段 *t* 上先前最佳得分的遗忘程度，*R_ood* 衡量在偏移评估集上的鲁棒性。

#### 短视差距 (Myopia gap)。

我们将短视差距定义为选择器在即时评估和长期视野评估下的排名不一致程度：

*Gap = (1/(K−1)) E_π∈Π [ | rank_imm(π) − rank_long(π) | ]* (3)

其中 *K* 是选择器的数量。较大的差距表明，选择器系列在标准的单阶段视角下表现良好，但在作为多阶段干预手段评估时顺序发生了变化。

#### 轨迹诊断。

长期视野评估还应检查训练轨

LLM微调中数据选择的长期影响

相似文章

迈向LLM的下一个前沿：私有数据训练——联邦微调的跨域基准

在LLM个性化中重新聚焦人类

论大语言模型适应性的局限：模型内化先验对标注任务性能的影响

公平输出，偏见内部：大语言模型在高风险决策中潜在偏见的因果效力与非对称性

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

提交意见反馈