数据受限的语言模型预训练：改进的正则化与缩放定律

arXiv cs.LG 2026/06/08 04:00 论文

scaling-laws regularization data-constrained language-model pretraining masked-input autoregressive

摘要

本文研究数据受限的语言模型预训练，提出了掩码输入正则化（MIR）以改进验证损失和下游性能，以及SoftQ，一种更好地捕捉重复数据下模型与数据交互的缩放定律。

arXiv:2606.06888v1 Announce Type: new 摘要：经典的语言模型预训练缩放定律在固定计算预算下平衡模型大小与训练数据集大小，假设数据充足且仅对语料库进行一次遍历。随着训练计算量的增长速度快于自然语言数据的供给，预训练很可能进入一个数据受限、计算充裕的领域，模型会在有限数据集上进行多个epoch的训练。我们沿着正则化和缩放两个方向研究数据受限的预训练。在正则化方面，我们研究了掩码输入正则化（MIR），这是一种对随机掩码输入进行辅助的下一个词预测损失。MIR检验扩散语言模型核心的随机掩码是否能在不改变架构或增加推理开销的情况下有益于自回归预训练。在参数规模从72M到1.4B的模型中，我们发现，在强权重衰减的基础上加入MIR，相比仅使用强权重衰减的自回归模型，能改善验证损失，并且在1.4B参数规模上带来下游性能提升。在缩放方面，我们提出了SoftQ，一种缩放定律，它将模型大小和数据大小耦合起来，以捕捉它们在重复数据下的交互。经典的替代方案如Chinchilla定律使用可加形式，将这两个项解耦，导致它们在数据受限领域中被错误指定。我们发现SoftQ对这些替代方案能更好地拟合数据受限实验，并估计MIR的提升等效于大约1.3倍的独特训练数据。我们已在https://github.com/yixinw-lab/dc_pretrain 发布代码。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:19

# 数据受限的语言模型预训练：改进的正则化与缩放定律  
来源：https://arxiv.org/html/2606.06888  
Zhiwei Xu¹¹, Shihao Wu¹¹, Hanseul Cho²², Wei Hu¹¹, Yixin Wang¹¹∗  
¹¹密歇根大学，²²韩国科学技术院（KAIST）人工智能系  
{zhiweixu, wshihao, vvh, yixinw}@umich.edu, [email protected]  

###### 摘要  
经典的预训练缩放定律在固定计算预算下平衡模型规模与训练数据集大小，假设数据充足且仅对语料库单次遍历。随着训练计算量的增长速度快于自然语言数据的供应，预训练很可能进入一个数据受限、计算充裕的领域，即模型在有限数据集上训练多个周期。我们沿着正则化和缩放两个维度研究数据受限的预训练。在正则化方面，我们研究了掩码输入正则化（MIR），这是一种对随机掩码输入施加辅助下一词预测损失的方法。MIR 测试了扩散语言模型的核心机制——随机掩码——是否能在不改变架构或推理开销的情况下有益于自回归预训练。在 72M 到 1.4B 参数的模型中，我们发现，在强权重衰减的基础上添加 MIR，相比仅使用强权重衰减的自回归模型，能改善验证损失，并且在 1.4B 参数规模上带来下游任务收益。在缩放方面，我们提出了 SoftQ，一种耦合模型规模和数据规模以捕捉它们在重复数据下相互作用的缩放定律。诸如 Chinchilla 定律之类的经典替代方案采用加法形式将这些项解耦，这使得它们在数据受限的领域中出现设定错误。我们发现，SoftQ 对这些替代方案在数据受限实验上的拟合效果显著更好，并估计 MIR 带来的收益相当于约 1.3 倍的独特训练数据。我们的代码已开源在 https://github.com/yixinw-lab/dc_pretrain。

## 1 引言

缩放定律（Kaplan 等人，2020（https://arxiv.org/html/2606.06888#bib.bib30）；Hoffmann 等人，2022（https://arxiv.org/html/2606.06888#bib.bib29））被广泛用于选择大语言模型预训练的模型规模和训练词元预算。经典的缩放定律主要以计算为中心：它们研究如何在参数和词元之间分配固定的计算预算，假设独特训练数据可以随计算量自由扩展。在这种数据充足的设定下，预训练通常是在大规模语料库上单次遍历完成。然而，训练计算量的增长速度已快于自然语言数据的供应（Villalobos 等人，2024（https://arxiv.org/html/2606.06888#bib.bib13）；Sevilla 和 Roldán，2024（https://arxiv.org/html/2606.06888#bib.bib14）；Common Crawl，2025（https://arxiv.org/html/2606.06888#bib.bib15）），这使得数据受限、计算充裕的预训练变得越来越重要。在这种模式下，独特数据集是固定的，额外的计算被用于更大的模型以及在同一个语料库上进行多次遍历。已有研究开始探索这一设定：Muennighoff 等人（2023（https://arxiv.org/html/2606.06888#bib.bib23））在将权重衰减固定为 0.1 的情况下调整数据重复次数，并提出了基于有效资源（随重复次数和多余参数饱和）的缩放定律；Kim 等人（2026b（https://arxiv.org/html/2606.06888#bib.bib31））进一步表明，大的权重衰减对于防止过拟合至关重要。这一转变引发了两个相互关联的问题。第一个问题涉及正则化：当计算量增加而独特数据不变时，模型如何避免过拟合？先前的研究指出强权重衰减是一种答案。另一种可能性来自掩码扩散语言模型（dLLM），这类模型通常使用与自回归（AR）模型相同的 Transformer 架构，但通过预测随机掩码的词元进行训练。在相同超参数下，dLLM 在数据受限的领域中实现了比自回归 Transformer 更低的验证损失（Ni 等人，2025（https://arxiv.org/html/2606.06888#bib.bib35）；Prabhudesai 等人，2025（https://arxiv.org/html/2606.06888#bib.bib32）），这表明随机掩码本身可能起到正则化的作用。然而，这些比较并未将掩码与正则化强度隔离开来：dLLM 的优势可能与强权重衰减互补，或者它可能主要反映出自回归基线中正则化不够强。这引出了我们的第一个问题：随机掩码和权重衰减如何相互作用，以及彼此之间各自贡献了多少？

参见图注(a) MIR 改进了强自回归基线。  
参见图注(b) SoftQ 捕捉了数据-模型耦合。  
图 1：主要结果概览。左图：在 DCLM（DataComp-LM）数据集（Li 等人，2024（https://arxiv.org/html/2606.06888#bib.bib18））上，使用 100M 独特训练词元，MIR 在所有模型规模上都改善了经过强正则化的自回归基线的验证损失。点表示五个随机种子下的均值，误差棒表示一个标准差，浅色标记表示单个运行结果。右图：在强正则化基线网格上，我们绘制了损失差 L(N,U) - L(N,400M)，其中独特数据预算 U ∈ {100M, 200M, 300M}。对于每个 U，Chinchilla 预测损失差与模型规模无关，而 SoftQ 则跟踪了经验上的发散现象：有限独特数据带来的惩罚随着模型规模增长而增加。

第二个问题涉及缩放：什么损失定律能描述数据受限、计算充裕的领域？Chinchilla 风格的定律是在单次遍历、数据充足的训练中拟合的，可能无法捕捉独特数据（而非计算）成为约束资源时的验证损失曲面。特别是，它们的加法形式预测两个独特数据预算之间的损失差应与模型规模无关。在本文中，我们在数据受限、计算充裕的领域同时对这两个问题进行研究。

发现 1：随机掩码提供了与强权重衰减互补的正则化。  
我们首先询问这两种正则化机制如何相互作用。我们发现，强权重衰减并非自回归预训练所特有：将自回归调优的权重衰减应用于 dLLM 显著降低了其验证损失，并且一旦两个模型都经过了强正则化，它们在我们研究的模型规模上的验证损失变得相当。鉴于强权重衰减本身已提供如此显著的正则化效果，这使得人们不清楚当已经使用了强权重衰减时，随机掩码是否还能带来额外收益。为了隔离这一效应，我们研究了**掩码输入正则化**（MIR），这是对标准自回归预训练的最小修改。设 x 表示一个干净序列，x̃ 表示同一序列的随机掩码版本。不同于仅优化标准下一词预测损失 L_NTP(x)，MIR 优化了 L = L_NTP(x) + λ L_NTP(x̃)。因此，模型同时在干净输入和掩码输入上进行训练，将掩码输入损失作为辅助正则化项。MIR 不需要架构变化，并且在推理时保持标准的自回归解码。虽然它增加了训练计算量，但我们的设定是数据受限且计算充裕，因此我们将 MIR 视为一种在固定独特数据预算下改善损失的方法，即提高数据效率而非计算效率。在 72M 到 1.4B 参数的模型中，在 DCLM（Li 等人，2024（https://arxiv.org/html/2606.06888#bib.bib18））和 Stack-V2（Lozhkov 等人，2024（https://arxiv.org/html/2606.06888#bib.bib19））数据集上进行训练，MIR 在强权重衰减的基础上持续改善了验证损失（图 1(a)（https://arxiv.org/html/2606.06888#S1.F1.sf1））。在 1.4B 参数规模上，它还带来了显著的下游任务收益，包括 BoolQ 上提升 +10.2 点，SciQ 上提升 +2.2 点。

发现 2：Chinchilla 在数据受限、计算充裕的领域中设定错误；一种耦合的缩放定律具有更好的拟合效果。  
为了量化 MIR 相当于多少独特数据，我们将在五个模型规模和四个独特数据预算上扩展实验，并拟合多种缩放定律。加法的 Chinchilla 形式（Hoffmann 等人，2022（https://arxiv.org/html/2606.06888#bib.bib29））在该领域拟合效果很差：它预测两个数据预算之间的验证损失差与模型规模无关，而我们的实验表明该差距随模型规模增大而增大（图 1(b)（https://arxiv.org/html/2606.06888#S1.F1.sf2））。我们提出了 **SoftQ 缩放定律**，这是一种五参数形式，通过一个受技能学习视角下的缩放定律（Michaud，2026（https://arxiv.org/html/2606.06888#bib.bib16））启发的软瓶颈来耦合模型规模和数据规模。在我们的数据集上，SoftQ 在样本内拟合和样本外预测方面均优于 Chinchilla、Quanta（Michaud，2026（https://arxiv.org/html/2606.06888#bib.bib16））和 Muennighoff 风格（Muennighoff 等人，2023（https://arxiv.org/html/2606.06888#bib.bib23））的定律。相同的排序在来自 Kim 等人（2026b（https://arxiv.org/html/2606.06888#bib.bib31））的独立数据集上也成立。使用 SoftQ 作为基线缩放定律，我们估计 MIR 相对于强正则化基线的收益，在 200M–400M 词元预算下，相当于约 1.3 倍的独特训练数据。

贡献。我们总结贡献如下：
(i) 我们表明，在数据受限领域，大的权重衰减显著提升了 dLLM，并且随机掩码进一步改善了强正则化的自回归模型。基于这一观察，我们提出了 MIR，一种简单的方案，在强正则化的自回归预训练中添加辅助的掩码输入下一词损失；我们估计，在 200M 到 400M 词元预算下，MIR 相当于约 1.3 倍的独特训练数据。
(ii) 我们表明，加法的 Chinchilla 风格缩放定律不适用于数据受限、计算充裕的领域，并提出了 SoftQ，一种五参数缩放定律，它耦合了模型和数据规模，并显著优于这些替代方案。

## 2 设定：数据受限的自回归与掩码预训练

### 2.1 数据受限与计算充裕的预训练

设 N 表示模型参数数量，U 表示独特预训练词元数量，N_E 表示在这些词元上的遍历次数（epoch 数），D = U N_E 表示总训练词元数量。对于标准密集解码器（decoder-only）Transformer 使用下一词预测进行训练，训练计算量近似为 C(N, D) ≈ 6ND。经典的计算最优缩放定律（Kaplan 等人，2020（https://arxiv.org/html/2606.06888#bib.bib30）；Hoffmann 等人，2022（https://arxiv.org/html/2606.06888#bib.bib29））将评估损失建模为模型规模和训练词元预算的函数。在数据充裕的领域，处理的词元可以被视为新样本，因此独特词元与重复词元之间的区别并不明确。标准的计算分配问题是 (N⋆(C), D⋆(C)) = argmin_{N,D} L_eval(N,D) s.t. C(N,D) = C。例如，Chinchilla 风格的参数化缩放写为 L̂(N,D) = E + A N^{-α} + B D^{-β}，然后在这个曲面上选择在训练计算约束下损失最小的点。这类定律在有新数据可用时非常有效，但它们不区分由新词元构成的预算 D 和通过在有限语料库上反复训练获得的相同预算。在数据受限、计算充裕的预训练中，独特词元预算 U 是固定或有界的，而 C 是无界的。额外的训练计算可以通过增加 epoch 数、增大模型规模或改变正则化来消耗。先前的研究探讨了该问题的几个版本。Muennighoff 等人（2023（https://arxiv.org/html/2606.06888#bib.bib23））通过用随重复次数和多余参数增长而饱和的有效资源替代原始词元和参数计数，对重复数据在计算约束下进行建模。Kim 等人（2026b（https://arxiv.org/html/2606.06888#bib.bib31））研究了一个计算更加充裕的设定，其中独特数据是固定的，训练方案经过调整以估计每个模型规模下可达到的最佳损失。我们采用计算充裕的视角。对于固定的架构族、优化器类别、数据分布和评估协议，定义优化的验证损失包络线 L⋆(N,U) = inf_{h∈H} L_eval(N,U;h)，其中 h 包括可调的训练超参数，例如 epoch 数、学习率调度、权重衰减和其他正则化选择。在这个公式中，D = U N_E(h) 决定了特定训练运行所使用的计算量，但计算量不是用于定义 L⋆ 的约束条件。因此，目标是建模最佳可达损失对模型规模 N 和独特数据规模 U 的联合依赖关系。

### 2.2 自回归与掩码扩散语言模型

设 p_θ 表示 Transformer 模型，{x_i}_{i=1}^n 表示训练数据集，其中每个样本 x_i = [x_{i,0}, x_{i,1}, ..., x_{i,T-1}] 是一个长度为 T 的序列。自回归模型从左到右预测词元。训练目标 L_NTP 为 -∑_{i=1}^n ∑_{t=0}^{T-1} log p_θ(x_{i,t} | x_{i,<t})。在推理时，解码过程仍然是自回归的，逐个生成词元。掩码扩散语言模型（dLLM）则不同：在每个训练步骤中，对序列的一部分进行掩码处理（通常用 [MASK] 替换），模型预测这些掩码位置的原始词元。损失是所有位置（或随机位置）交叉熵损失的平均值。由于推理时无法获取未来词元，dLLM 使用了一种专门的扩散解码过程，通常需要进行多次前向传播。尽管 dLLM 通常使用与自回归模型相同的 Transformer 架构，但其训练和推理目标并不相同。

## 3 掩码输入正则化

我们提出了一种简单的正则化方法：掩码输入正则化（MIR），它保留了标准的自回归解码。MIR 在标准下一词预测损失之外，添加一个辅助的下一词预测损失，该损失作用于同一序列的随机掩码版本。形式上，设 x 是一个长度为 T 的序列，m 是一个掩码向量，其中每个位置 m_t ∈ {0,1}（1 表示掩码）。掩码序列 x̃ 通过替换某些位置为 [MASK] 得到。MIR 损失为 L = L_NTP(x) + λ L_NTP(x̃)，其中 λ > 0。该辅助损失鼓励模型即使在部分输入被隐藏时也能正确预测下一个词元，这可能促进了更鲁棒的表征。重要的是，MIR 不需要对模型架构进行任何更改；推理时仅使用标准自回归解码。虽然训练计算量增加（因为前向传播需要处理两个序列），但在我们的数据受限、计算充裕的设定中，这是可接受的，因为目标是以计算换取更有效的独特数据利用。

我们在第 4 节中展示，MIR 在强权重衰减的基础上进一步改善了验证损失，并且在下游任务上也带来了收益。

## 4 缩放定律

我们研究了如何对数据受限、计算充裕领域的验证损失表面进行建模。我们首先论证，加法的 Chinchilla 风格定律在该领域设定错误，因为它们预测独特数据预算变化带来的损失差应与模型规模无关，而我们的实验观察到该差距随模型规模增大而增大。然后，我们提出了 SoftQ 缩放定律，该定律通过一个软瓶颈来耦合模型规模和数据规模。最后，我们展示了 SoftQ 能很好地拟合数据受限的实验数据，并在模型规模-数据规模网格上外推时具有良好表现。

我们使用 SoftQ 作为基线来估计 MIR 的等效数据增益。我们将 MIR 在给定独特数据预算 U 下的验证损失表示为 L_MIR(N, U)。通过拟合 SoftQ 到使用 MIR 训练得到的损失点，我们可以计算出需要多少独特数据才能在强正则化基线（不使用 MIR）下达到相同的验证损失。这一分析表明，在 200M 到 400M 词元预算下，MIR 的价值相当于约 1.3 倍的独特训练数据。

## 5 结论

在这项工作中，我们研究了数据受限、计算充裕的语言模型预训练中的正则化与缩放问题。我们表明，随机掩码（通过掩码输入正则化 MIR 实现）提供了与强权重衰减互补的正则化，并且在下游任务上带来了收益。此外，我们揭示了加法的 Chinchilla 风格缩放定律在该领域设定错误，并提出了 SoftQ，一种耦合模型规模和数据规模的新缩放定律，它能更准确地拟合实验损失曲面。使用 SoftQ，我们估计 MIR 在 200M–400M 词元预算下相当于约 1.3 倍的独特数据。

数据受限的语言模型预训练：改进的正则化与缩放定律

相似文章

数据受限训练的规定性缩放定律

数据约束下的混合预训练缩放定律

面向大语言模型的显著性感知正则化量化校准

神经语言模型的缩放规律

InfoLaw：基于质量加权混合数据与重复度的大型语言模型信息缩放定律

提交意见反馈