更少数据，更快训练：重复小数据集通过采样偏差加速学习

arXiv cs.LG 2026/05/21 04:00 论文

摘要

本文研究了“小规模与大规模差距”，即与使用更大的数据集相比，在更少的样本上进行更多次重复训练可以带来更快的学习和计算节省，并将加速归因于采样偏差所实现的逐层增长。研究结果表明，带有重复的小数据集可以被主动利用作为有利的归纳偏置，尤其是在推理任务中。

arXiv:2605.20314v1 公告类型: 新摘要：本文研究了“小规模与大规模差距”，即与使用更大的数据集相比，在更少的样本上进行更多次重复训练可以在训练过程中节省计算量。这一现象在多种算法任务、架构和优化器中被观察到，且无法用现有理论解释。我们认为加速源于采样偏差所实现的适当逐层增长，当数据集规模较小时这一效果更为显著。我们提供了理论分析和来自多种干预实验的经验证据。我们的结果表明，使用更小数据集但重复更多次不仅是数据稀缺下的后备策略，更可以被主动利用作为有利于优化的归纳偏置，尤其在推理任务中。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:23

# 更少的数据，更快的训练：重复使用较小的数据集通过采样偏差加速学习来源：https://arxiv.org/html/2605.20314###### 摘要本文研究“小-大差距”现象，即与使用更大的数据集相比，在较少的样本上进行重复训练可以节省计算量。这一现象在多种算法任务、架构和优化器中均有观察到，且无法用现有理论解释。我们认为，这种加速来自于由采样偏差所引发的适当的逐层增长，当数据集规模较小时，这种效应更为显著。我们提供了理论分析和来自多种干预实验的实证证据。我们的结果表明，使用较小的数据集进行更多次重复不仅仅是数据稀缺时的备选策略，而且可以被主动利用作为有利于优化的归纳偏差，尤其是在推理任务中。Jingwen Liu 哥伦比亚大学 [email protected] Ezra Edelman 宾夕法尼亚大学 [email protected] Surbhi Goel 宾夕法尼亚大学 [email protected] Bingbin Liu Kempner Institute, Harvard University [email protected]## 1 引言传统上关于数据使用的观点是“多多益善”，这一观点既得到了经典泛化理论的支持，也得到了广泛实证证据的支撑 (Hernandez et al., 2022; Muennighoff et al., 2023)。然而，近期工作报告了一个反直觉的现象：更少的样本可以导致更快的学习。一个例子是针对单指标模型的在线SGD，在同一批次上执行多于一个梯度步可以导致更快的收敛（按步数计）(Dandi et al., 2024; Arnaboldi et al., 2024; Lee et al., 2025)。类似地，对Transformer的实证研究观察到，在给定训练步数的情况下，在随机采样的数据集上进行多周期训练比每步使用新鲜样本的训练能达到更好的测试性能，这一现象出现在多种算法任务中 (Charton and Kempe, 2024)。在LLM后训练中，一项并行工作 (Kopiczko et al., 2026) 也观察到，在固定计算预算下，对于数学和编码任务，在更少样本上进行更多周期可以带来更好的性能。这些是我们所谓的“小-大差距”的例子：对于给定模型，在较少样本上训练能够减少达到目标性能所需的训练计算量，其中计算量定义为模型执行梯度更新所用的（可能重复的）样本总数（例如，训练步数×批量大小）。本文旨在更好地理解这种小-大差距。我们首先扩展先前的工作，确认了小-大差距出现在多种设置中（图1和图2），包括不同的任务、架构和优化器，以及在小批量更新和全批量更新两种情况下。与先前研究相反，我们所考察的许多设置无法用现有理论解释（第4.1节）。这些理论包括CSQ-SQ下界 (Dandi et al., 2024; Arnaboldi et al., 2024; Lee et al., 2025)、梯度方差缩减 (Kotha et al., 2025)、课程学习 (Valiant, 2012; Abbe et al., 2023b) 或偏态分布下的学习 (Kalai et al., 2009; Cornacchia et al., 2025)。值得注意的是，即使在全批量梯度更新下（图2），小-大差距依然存在，这意味着基于随机梯度更新的解释并不充分。相反，我们表明小-大差距主要源于数据集采样偏差带来的有利优化偏差。直观地说，重复数据集会强化采样引入的偏差，这有助于调整不同层的相对增长，从而加速特征学习。当数据集较小时，由于采样偏差更强，这一效应更加明显。我们在第4.2节形式化了这一直觉，并表明在较小数据集上训练可以减少收敛所需的步数（定理1）。进一步的证据是，通过适当选择逐层初始化或学习率，可以消除小-大差距。我们在第5节提供了来自多种干预实验的实证证据。这种采样偏差使模型对学习率和初始化选择更加鲁棒，从而在标准参数化下产生差距。总之，我们的工作通过以下贡献刻画了小-大差距：
- • 我们确认了小-大差距存在于多种任务、架构和优化器中。这一差距在优化步数和总体计算复杂度（取决于步数和每步成本，与批量大小成正比）上都很明显。
- • 我们表明，较小数据集诱导的采样偏差是小-大差距的主要驱动因素（第4节）：采样偏差调节了各层更新的相对幅度，从而有助于特征学习。我们确定了现有理论无法解释差距的情境（第4.1节），并从理论上表明，在MLP中，较小数据集上的训练减少了收敛所需的步数（定理1）。
- • 我们通过广泛的实证证据进一步支持理论解释。首先，在具有随机标签的小数据集上训练会产生与真实标签观察到的类似加速（第5.1节），表明采样偏差是主要机制，因为差距在缺乏任务相关信号时仍然存在。此外，参数级干预（第5.2节）显著减少了小-大差距，包括调整初始化和MLP及Transformer中的逐参数学习率。对于Transformer，我们的发现还表明广泛使用的QK归一化对优化具有细微影响，值得进一步研究。我们在第6节讨论了我们结果的含义和局限性。总之，我们的结果表明，在较小数据集上进行更多次重复训练不仅仅是数据稀缺时的备选方案，而是一种有益的优化归纳偏差来源，可以更主动地加以利用，尤其是在推理任务中。参考图注 (a) 稀疏奇偶性 (b) 单指标模型 (c) ICL线性回归 (d) 模加法 图1：小-大差距存在于多种任务中。在各种特征学习和算法任务中（第2节），在较小数据集上训练（黄色曲线）比在较大数据集上训练（蓝色曲线）收敛更快。结果基于使用小批量AdamW优化的2层Transformer。“nn阶段”计划表示训练集大小在nn个阶段中逐步增加（第2节）。### 1.1 相关工作在深度学习中，普遍认为“多多益善”，这体现在对缩放定律的研究中。然而，不同的资源可能不需要同步缩放。例如，数据重复（保持样本量固定而缩放计算量）在重复量适中时可以实现与计算量匹配的在线训练相似性能 (Xu et al., 2021; Sekhari et al., 2021; Muennighoff et al., 2023; Lin et al., 2025; Yan et al., 2025)。我们感兴趣的是更极端的现象，称为小-大差距，即在保持计算量不变的情况下减少样本量可以帮助提高性能。小-大差距已在近期关于算法任务 (Charton and Kempe, 2024)、上下文学习 (Zucchet et al., 2025) 和语言模型在推理任务上的微调 (Kopiczko et al., 2026) 中被观察到。先前工作已表明在学习单指标模型时，在同一组样本上采取多于一个梯度步可以减少总的梯度步数 (Dandi et al., 2024; Arnaboldi et al., 2024; Lee et al., 2025)。其直觉是，虽然在线SGD属于相关统计查询 (CSQ) 算法类别，但带有样本重复的SGD属于更一般的统计查询 (SQ) 算法类别。相反，我们发现即使在CSQ-SQ区分不适用的情况下，使用较少数据也能节省计算量，包括使用全批量梯度下降的训练以及离散域的任务。与我们第4.2节中的二次设置相近，Kovačević等人 (2026) 的并行工作展示了全批量梯度下降相比从总体中新鲜采样小批量的SGD具有统计优势。一个关键区别是Kovačević等人 (2026) 中的模型只有单层（即f(x)=σ(w⊤x)），因此相对权重范数的影响不适用。先前工作还研究了多遍SGD如何在各种设置下改善单遍SGD的样本复杂度，包括线性回归 (Pillaud-Vivien et al., 2018; Lin et al., 2025)、一般随机凸优化 (Sekhari et al., 2021) 以及PL条件下的非凸问题 (Xu et al., 2021)。与我们工作的一个关键区别是，这些结果关注的是节省样本而非计算量：他们表明，由T步在线SGD（每一步基于总体中的独立同分布样本）达到的总体误差，可以通过T步多遍SGD（每一步基于从大小小于T的经验分布中抽取的独立同分布样本）达到。相反，我们将证明，有可能用少于T步多遍SGD达到与T步在线SGD相同的误差。我们将说明，这种加速背后的关键机制来自于较小数据集带来的强采样偏差，它有效地调整了各层的相对更新速度，从而导致更快的学习。这种调整与平衡不同层贡献的思想有关，这在优化和特征学习中已被广泛研究 (Yang and Hu, 2020; Azulay et al., 2021; Yang et al., 2022, 2023; Everett et al., 2024)。## 2 设置##### 任务 我们考虑合成任务，这些任务具有可调参数，从而允许显式控制任务复杂度。我们从两个经典的特征学习任务开始，这些任务已在文献中得到广泛研究。
- •单指标模型 (SIM)：输入是高斯向量 x∼N(0,Id)，标签由 y:=φ(⟨w∗,x⟩) 给出，其中 w∗ 是真实特征向量，φ:R→R 是未知的链接函数。我们的实验将链接函数取为埃尔米特多项式，记为 Hek，阶数为 k。
- • (d,k)-稀疏奇偶性：输入是布尔向量 x∼Unif({±1}d)，标签由 y:=∏i∈Sxi 给出，其中 S⊂[d] 是大小为 k 的未知支撑集。我们还考虑两个用于Transformer的算法任务：
- •上下文线性回归：输入是长度为 2k+1 的序列 x1,y1,x2,y2,...,xk,yk,xq，其中每个序列独立采样 w∼N(0,In)，xi∼N(0,In)，yi=w⊤xi, ∀i∈[k]，标签为 y:=w⊤xq。
- • (N,p)-模加法：输入是两个数字 x,z∼Unif([N])，标签由 y:=(x+z)mod p 给出，其中 p 为素数。对于Transformer实验，x,z 分别用基数为 b 的 ⌈logbN⌉ 位数字表示，输出logits大小为 p。##### 数据重用策略 我们考虑在不同大小的数据集上使用批量随机梯度下降 (SGD) 和（全批量）梯度下降 (GD)。¹¹参见图18关于数据集大小的消融实验。对于批量SGD，批次是从分布中有放回地均匀采样。我们还考虑多阶段训练，其中各阶段的数据集大小可以不同。特别地，在 T 阶段重复中，批次在第 i 阶段从子集 Si 中采样，其中 i∈[T]，且对于 j>i 有 Si⊂Sj。²²我们实验了一种替代方案，其中每个子集独立抽取而不要求是之前子集的超集。结果相似，因此我们保留子集要求，这还有样本复杂度更低的额外好处。一个例子是2阶段训练，第一阶段使用从总体中随机采样的子集，第二阶段在整个总体上进行优化。这类似于Charton and Kempe (2024) 提出的两集训练，其中每个批次是来自两个集合的样本混合：一个重复的小集合和一个由在线样本组成的大集合。一般的多阶段训练需要指定每个阶段的规模大小和步数。一个启发式方法是：(1) 前几个子集相对较小，使模型能快速达到非平凡的训练集性能，并从初始化状态发生非平凡的偏离；(2) 最终子集 S_T 包含所有数据。

更少数据，更快训练：重复小数据集通过采样偏差加速学习

相似文章

为什么更大的模型能学到更多：容量、干扰与罕见任务保留的影响

@ChrisGPotts：我们理所当然地认为更大的模型比小的更好，但为什么会这样？我们的新论文，由Jing Hua领导……

数据过滤的苦涩教训（1分钟阅读）

数据受限训练的规定性缩放定律

@rohanpaul_ai: 一篇来自斯坦福、MIT、哈佛和Anthropic的优秀论文。给出了关于为何大型模型能学习……的清晰训练解释。

提交意见反馈