始终学习,始终混合:高效简单的全时数据混合
摘要
本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。
查看缓存全文
缓存时间: 2026/05/18 06:30
# 始终高效且简单地进行数据混合 来源:https://arxiv.org/html/2605.15220 ## 始终学习,始终混合:始终高效且简单地进行数据混合 Michael Y\. Hu¹、Apurva Gandhi²、Kyunghyun Cho¹、Tal Linzen¹、Pratyusha Sharma¹,³ ¹纽约大学 ²卡内基梅隆大学 ³微软 \{michael\.hu, kyunghyun\.cho, linzen\}@nyu\.edu apurvag@andrew\.cmu\.edu pratysharma@microsoft\.com ###### 摘要 数据混合决定了如何组合不同来源或类型的数据,是整个语言模型训练过程中的一个关键问题。在预训练中,数据组合是模型质量的关键决定因素;在持续学习和适应中,它决定了保留和习得的内容。然而,现有的数据混合方法一次只解决生命周期中的一个阶段:有些需要与单一训练阶段绑定的小型代理模型,有些假设固定的领域集,而持续学习则完全缺乏原则性指导。*我们认为数据混合从根本上来说是一个在线决策问题——它在整个训练过程中反复出现,需要一个统一的解决方案。* 我们引入 OP-Mix(On-Policy Mix),这是一种在整个语言模型训练生命周期中运行的数据混合算法。我们的主要见解是,可以通过在直接在当前模型上训练的低秩适配器之间进行插值来廉价地模拟候选数据混合,从而消除独立的代理模型,并确保搜索始终基于模型的实际学习动态。在预训练、持续中期训练和持续指令微调中,OP-Mix 始终能找到接近最优的混合,同时使用的计算量仅为基线方法的一小部分。在预训练中,OP-Mix 的平均困惑度比不使用混合的训练提升了 6.3%。对于持续学习,OP-Mix 的性能与重新训练和在策略蒸馏相当,而总体计算量分别减少了 66% 和 95%。OP-Mix 提出了语言模型训练的不同视角:不是一系列不同的阶段,而是一个从数据中学习的连续过程。 参见图注 图 1:OP-Mix 概述。OP-Mix 旨在廉价地估计持续设置中的最优数据混合比例。(1) 在新领域上训练轻量级 LoRA 适配器以估计未来性能。(2) 插值适配器以模拟不同的数据混合(无需重新训练),然后估计最优混合比例。(3) 使用计算出的混合训练基础模型。 参见图注 图 2:OP-Mix(紫色)在预训练、持续中期训练和持续指令调优中与基线方法一起测试时,在性能-效率前沿上占据帕累托优势。 ## 1 引言 语言模型是在精心策划的数据混合上训练的,但构建正确混合的科学仍处于起步阶段。主流方法——在候选混合上训练小型代理模型并外推到完整训练——在组合上代价高昂,并且随着领域数量的增加而扩展性差(Ye 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib2);Liu 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib26);Chen 等人,2026 (https://arxiv.org/html/2605.15220#bib.bib1))。此外,大多数数据混合方法专门针对预训练,并假设固定的领域集(Chen 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib29);Fan 等人,2024 (https://arxiv.org/html/2605.15220#bib.bib27);Jiang 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib53);Xie 等人,2023 (https://arxiv.org/html/2605.15220#bib.bib33);Chen 等人,2023 (https://arxiv.org/html/2605.15220#bib.bib23)):实际上,随着新任务的定义、新语料库的收集以及新能力的优先级排序,可用的训练领域在不断演变。这引发了一个自然的持续学习问题,其目标是在不灾难性遗忘模型已学内容的情况下整合新数据。我们提出一个问题:*正确的数据混合是什么?随着数据本身不断变化,我们如何有效地找到它?* 我们提出 OP-Mix(On-Policy Mix),这是一种通过结合两种见解来估计最优数据混合的算法。首先,不是为每个候选数据混合训练单独的代理模型,OP-Mix 直接从当前模型为每个数据领域训练一个低秩适配器(LoRA,Hu 等人 (2022 (https://arxiv.org/html/2605.15220#bib.bib60))),使代理模型与正在训练的模型保持**在策略(on-policy)**——即反映其当前状态。其次,它使用 LoRA 之间的线性插值作为完整数据混合损失面的代理,借鉴了最近的工作(Wang 等人,2026 (https://arxiv.org/html/2605.15220#bib.bib59);Tao 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib61))。这避免了对每个不同的数据混合比例重新训练代理,从而摆脱了训练运行组合爆炸的困境。这两个见解使 OP-Mix 能够以最少的额外计算量搜索数据混合,无需单独的代理模型,并能自然地适应新领域:当新数据集到达时,我们只需训练另一个 LoRA 并重新拟合混合。 我们在语言模型生命周期的三个阶段——预训练(Radford 等人,2019 (https://arxiv.org/html/2605.15220#bib.bib9);Devlin 等人,2019 (https://arxiv.org/html/2605.15220#bib.bib10))、持续中期训练(OLMo 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib21);Liu 等人,2026 (https://arxiv.org/html/2605.15220#bib.bib12))和持续指令调优(Wei 等人,2022 (https://arxiv.org/html/2605.15220#bib.bib11))——上评估了 OP-Mix,并发现我们的单一算法足以应对所有三个阶段。在预训练中,OP-Mix 的平均困惑度比不使用数据混合提升了 6.3%,并且与最佳数据混合基线方法的性能相当,同时计算量减少了 14%。在持续中期训练中,OP-Mix 以极低的成本实现了**完全重新训练**的性能。最后,在持续指令调优中,OP-Mix 与在策略自蒸馏相结合(Shenfeld 等人,2026 (https://arxiv.org/html/2605.15220#bib.bib57);Lu,2025 (https://arxiv.org/html/2605.15220#bib.bib58);Zhao 等人,2026 (https://arxiv.org/html/2605.15220#bib.bib45)),在不对任一算法进行修改的情况下获得了进一步的收益。我们的贡献如下: 1. 1. **首个通用数据混合算法**:OP-Mix 是第一个既能扩展到新数据领域,又无需单独代理模型即可模拟候选混合的数据混合算法。这使得 OP-Mix 能够在数据演变时持续混合数据,克服了在训练流程的每个阶段需要不同算法的问题(§3 (https://arxiv.org/html/2605.15220#S3))。 2. 2. **在整个训练生命周期中达到最先进水平**:单个 OP-Mix 实例在预训练、持续中期训练和持续指令调优中均达到了最先进的性能,表明针对特定阶段的算法并非必要。(§4 (https://arxiv.org/html/2605.15220#S4))。 3. 3. **OP-Mix 实现持续学习,以 95% 更少的计算量匹配在策略蒸馏**:在持续指令调优期间,OP-Mix 应用在标准 SFT 之上,以极低的成本恢复了自蒸馏微调(SDFT,Shenfeld 等人 (2026 (https://arxiv.org/html/2605.15220#bib.bib57)))的收益。将 OP-Mix 与 SDFT 结合还能获得进一步收益,表明数据混合可以成为独立于训练目标的改进轴(§4.1 (https://arxiv.org/html/2605.15220#S4.SS1))。 ## 2 背景:数据混合及其局限性 设 D={D1,D2,...,Dm}\\mathcal{D}=\{D_{1},D_{2},\dots,D_{m}\} 是一组 mm 个数据领域,其中领域 DiD_{i} 有 NiN_{i} 个 token。数据混合是一个概率向量 p∈△m−1p\in\triangle^{m-1},其中在总共 RR 个 token 的训练中使用来自领域 DiD_{i} 的 pi⋅Rp_{i}\cdot R 个 token。我们将一个具有 SS 参数、在混合 pp 上训练了 RR 个 token 的语言模型记为 LM(S,R,p)\text{LM}(S,R,p),并将其在下游任务 j∈[J]j\in[J] 上的性能测量为 fj(LM(S,R,p))f_{j}(\text{LM}(S,R,p))。我们假设训练目标是最小化加权和 F=∑jwj⋅fj(LM(S,R,p))F=\sum_{j}w_{j}\cdot f_{j}(\text{LM}(S,R,p)),其中权重 wjw_{j} 由用户指定。这里,意图最大化的指标(例如准确率)被取负。 #### 批量持续学习。 在训练过程中,我们可能定期收到 kk 个新数据集 Dm+1,...,Dm+kD_{m+1},\dots,D_{m+k},在这种情况下,更新的领域集变为 D∪{Dm+1,...,Dm+k}\mathcal{D}\cup\{D_{m+1},\dots,D_{m+k}\}。例如,这 kk 个新数据集可能是指令微调数据集,在预训练之后引入。然后我们可能旨在最小化预训练和指令调优数据集上的损失。 #### 数据混合。 数据混合算法自动化了找到使 FF 最小化的混合 pp 的过程。大多数数据混合算法的核心思想是拟合一个简单模型 fi^(p)\hat{f_{i}}(p),该模型预测未来性能 fif_{i} 作为当前数据混合 pp 上性能的函数(参见 Chen 等人 (2025 (https://arxiv.org/html/2605.15220#bib.bib29)) 的综述)。然后可以最小化 fi^(p)\hat{f_{i}}(p) 来估计最优混合。 表 1:OP-Mix 是唯一一种将数据混合扩展到新数据同时不使用单独代理模型的方法。这两种特征的组合使 OP-Mix 能够部署在语言模型的整个生命周期中。 先前的工作表明,未来性能可以通过对数线性参数形式很好地预测:fi^(p)=ci+exp(Ai⊤pi)\hat{f_{i}}(p)=c_{i}+\exp(A_{i}^{\top}p_{i}),其中 ci∈Rc_{i}\in\mathbb{R} 且 Ai∈RmA_{i}\in\mathbb{R}^{m}(Ye 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib2);Chen 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib29),2026 (https://arxiv.org/html/2605.15220#bib.bib1))。然后数据混合算法旨在尽可能廉价地估计这样的缩放定律。一种常见的技术是通过从概率单纯形中随机采样混合,并训练具有更少参数 S′≪SS^{\prime}\ll S 和更少数据 R′≪RR^{\prime}\ll R 的代理模型来近似完整模型在数据混合上的性能:fi(LM(S,R,p))≈fi(LM(S′,R′,p))f_{i}(\text{LM}(S,R,p))\approx f_{i}(\text{LM}(S^{\prime},R^{\prime},p))(Liu 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib26);Chen 等人,2026 (https://arxiv.org/html/2605.15220#bib.bib1);Ye 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib2))。 一个跨越 LM 训练全过程的单一数据混合算法对于实际原因(更少的复杂性和阶段特定调优)和概念原因都是可取的:对于数据混合而言,预训练、中期训练和微调并非根本不同的问题。然而,两个问题限制了现有算法在生命周期中的运行。首先,大多数数据混合算法针对预训练,不扩展其数据混合。因此,这些算法无法应用于持续学习设置,而语言模型训练从阶段到阶段会引发一个自然的持续学习问题。其次,依赖单独代理模型的数据混合方法在预训练后失效,因为开源模型发布通常不附带匹配的小模型代理(Team 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib20);Grattafiori 等人,2024 (https://arxiv.org/html/2605.15220#bib.bib24);Yang 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib22))。此外,独立的较小代理模型已被证明会为目标模型产生次优混合,因为它们在规模上偏离了基础模型的动态(Jiang 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib53);Chen 等人,2026 (https://arxiv.org/html/2605.15220#bib.bib1)),并且代理数量随着数据集数量组合爆炸。 参见图注 图 3:OP-Mix 实现持续学习:对于 530M 参数模型,OP-Mix 比使用专门为持续学习设计的 WSD-S 学习计划的持续 SFT(Wen 等人,2025 (https://arxiv.org/html/2605.15220#bib.bib47))平均减少遗忘 27%,在 Reddit 上减少 71%。 ## 3 OP-Mix:在策略数据混合 在这项工作中,我们提出 OP-Mix,这是一种数据混合算法,通过使用在策略代理而不是单独的代理,并有效地扩展数据混合,能够有效地适用于语言模型训练的任何阶段。这里的“在策略”意味着代理是从正在训练的模型构建的,而不是从初始化不同的模型(其学习动态可能偏离目标)。 OP-Mix 使用低秩适配(LoRA,Hu 等人 (2022 (https://arxiv.org/html/2605.15220#bib.bib60)))来廉价地估计完整训练的性能。LoRA 减少了测试新数据混合所需的计算量,同时与基础模型绑定,并规避了在训练后期创建单独代理模型的歧义。为了在不执行额外训练运行的情况下模拟新的数据混合,我们插值 LoRA 权重,这是受 Wang 等人 (2026 (https://arxiv.org/html/2605.15220#bib.bib59)) 和 Tao 等人 (2025 (https://arxiv.org/html/2605.15220#bib.bib61)) 的启发。这使得我们可以为每个数据领域训练一个 LoRA,并仅通过前向传递事后估计混合领域的效果。当新领域到达时,我们还扩展数据混合,借鉴了 Chen 等人 (2026 (https://arxiv.org/html/2605.15220#bib.bib1)) 中预训练混合重用的思想。在每个阶段,我们不是为每一个之前见过的领域重新训练一个新的 LoRA,而是训练一个单一的“旧”适配器 θDoldLoRA\\theta_{D_{\text{old}}}^{\text{LoRA}},保持旧领域的概率不变,只调整旧混合与新到达领域之间的比例。 #### OP-Mix(算法 1 (https://arxiv.org/html/2605.15220#alg1))。 在**持续设置**中,当 KK 个新领域 Dm+i,i∈[K]D_{m+i},i\in[K] 到达时,我们从当前模型开始为每个领域 Dm+iD_{m+i} 训练一个单一的 LoRA 适配器。这给出了 θDm+iLoRA\\theta_{D_{m+i}}^{\text{LoRA}},一个对在 Dm+iD_{m+i} 上进行完全微调会得到什么的廉价近似。我们还在旧数据上训练 θDoldLoRA\\theta_{D_{\text{old}}}^{\text{LoRA}},以近似在 DoldD_{\text{old}} 上的持续训练。接下来,我们评估 θDm+1LoRA,...,θDm+KLoRA\\theta_{D_{m+1}}^{\text{LoRA}},\dots,\theta_{D_{m+K}}^{\text{LoRA}} 与 θDoldLoRA\\theta_{D_{\text{old}}}^{\text{LoRA}} 的线性插值合并。我们在 KK-单纯形 △K\triangle^{K} 中采样插值点,每个插值点在不进行额外训练的情况下模拟旧数据和新数据之间的不同混合比例。然后我们拟合一个回归模型给这些评估,在插值路径上产生一个平滑的损失面(算法 1 (https://arxiv.org/html/2605.15220#alg1),第 7-12 行)。最后,我们在此面上最小化得到 α⋆\\alpha^{\star},即旧数据和新数据之间的权衡,将结果权重分配到所有数据集,并进行最终的训练运行。参见图 1 (https://arxiv.org/html/2605.15220#S0.F1) 的可视化概览。 对于**预训练**,我们从一个热身阶段开始,其中每个文档以等概率采样(经验风险最小化)。热身之后,我们将每个数据集重新引入为新领域以调整数据混合。在 §4.1 (https://arxiv.org/html/2605.15220#S4.SS1) 中,我们将热身设置为总 token 预算的 20%。 算法 1 OP-Mix(单步持续学习) 1: 输入:基础模型 θbase\\theta_{\text{base}};先前领域相似文章
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
数据约束下的混合预训练缩放定律
本文研究了在混合预训练中稀缺目标数据与丰富通用数据之间的权衡,发现重复是驱动性能的关键因素,并且混合训练能容忍目标数据重复15-20次。我们引入了一个考虑重复影响的缩放定律,以优化数据约束条件下的混合配置。
Toeplitz MLP Mixer 是低复杂度、信息丰富的序列模型
本文介绍了 Toeplitz MLP Mixer(TMM),这是一种新型架构,它用 Toeplitz 矩阵乘法取代注意力机制,从而在保持高信息保留率和训练效率的同时实现更低的计算复杂度。
一个基于最优传输理论的在线增量学习潜在空间培育方法
本文介绍了MMOT,一种基于最优传输理论的在线混合模型学习框架,通过动态质心更新和改进的类别相似性估计来应对分布漂移下的增量学习。该方法包含一种动态保持策略,用于缓解灾难性遗忘并在潜在空间中维持类别可分离性。
即兴发挥、适应、克服:一种用于高效机器学习的即时多保真度算法
本文介绍了一种用于量子化学的自适应即时多保真度机器学习算法,该算法能够自主确定不同保真度下的训练数据组成,与单保真度方法相比,数据生成成本降低高达30倍,与标准多保真度方法相比降低高达5倍。