重复不匹配：为何数据混合实验无法扩展以及如何修复

arXiv cs.LG 2026/06/09 04:00 论文

pre-training data-mixture repetition-mismatch scaling language-model training-dynamics deep-learning

摘要

论文指出重复不匹配是数据混合实验无法扩展的主要原因，并提出了一种重复控制子采样程序，使得小规模实验能够使用远少于原先的token数量恢复出接近最优的混合方案。

arXiv:2606.07597v1 公告类型：新摘要：预训练数据混合通常通过运行小规模实验并外推到目标训练预算来进行调整。当高质量数据稀缺且必须重复使用时，这种外推经常失败，但失败的原因尚未被分离出来。我们证明主要原因是重复不匹配：由于高质量数据集较小，随着训练预算的增加，它们的重复率会发生变化，从而以小型代理实验无法预期的方式改变最优混合方案。一种匹配目标重复率的子采样程序可以控制这种效应。在结合有限高质量数据和网络爬取数据的双源设置中，仅使用目标token数量的1/16进行一次重复控制实验，即可为757M参数模型恢复到最优方案的0.05以内的混合方案，而未经重复控制的误差为0.75。在不使用重复控制的情况下达到类似精度需要三到四轮实验，消耗目标token预算的44%到94%。对于三个数据源，更大的混合空间需要不止一次实验来约束，但该方法仍然有效：在757M规模下，仅需两次重复控制实验即可恢复最优混合方案，优于需要完整双源实验构建的基线方法。我们的结果揭示，决定小规模混合实验是否能够泛化的因素并非仅规模本身，而是重复动态。更广泛地说，它们表明数据重复应被视为混合优化中的一个第一类变量，而不是有限数据带来的不便副作用。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:47

# 重复不匹配：为什么数据混合实验无法扩展以及如何修复

来源：https://arxiv.org/html/2606.07597

Kevin Zhou†\dagger, Lisa Alazraki†\dagger, Kris Cao‡\ddagger, Marek Rei†\dagger

†\dagger伦敦帝国理工学院，‡\ddaggerCohere

kevinzhou497@gmail\.com \{lisa\.alazraki20, marek\.rei\}@imperial\.ac\.uk

kriscao@cohere\.com

###### 摘要

预训练数据混合通常通过运行小规模实验并外推至目标训练预算来调整。当高质量数据稀缺且必须重复使用时，这种外推经常失败，但失败的根源尚未被孤立出来。我们表明，一个主要原因是重复不匹配：由于高质量数据集较小，其重复率会随着训练预算的增长而变化，从而以小型代理实验无法预料的方式改变最优混合比例。一种匹配目标重复率的子采样程序可以控制这种效应。在结合有限高质量数据与网络爬虫数据的双源设置中，使用仅占目标 tokens 1/16 的单一重复控制实验，即可为 757M 参数模型恢复出与最优值相差 0.05 以内的混合比例，相比之下，无重复控制时的误差为 0.75。若要在没有重复控制的情况下达到同样精度，则需要三到四个训练视野，消耗目标 token 预算的 44% 到 94%。当使用三个数据源时，更大的混合空间需要多于一次实验才能约束，但该方法仍然有效：在 757M 规模下，仅需两个重复控制的训练视野即可恢复最优混合比例，表现优于需要完整双源实验才能构建的基线。我们的结果表明，决定小规模混合实验能否泛化的关键并非规模本身，而是重复动态。更广泛地说，这些结果暗示，数据重复应被视为混合优化中的一等变量，而非有限数据带来的不便副作用。

## 1 引言

关于图注的图1：四个模型大小在不同训练视野下的最优 WikiText 重复次数。所有模型在小预算时所需的重复次数相近，但随着预算增长显著分化，导致通过标准外推在小规模优化的混合比例在目标规模上系统性地出错。

训练数据来自多个来源的组成是语言模型（LM）预训练中的关键因素，对下游性能有重大影响 Miranda 等人（2025）。预训练语料库通常将噪声较大的网络爬虫数据与较干净的高质量来源（如书籍或精选网站）相结合，两者之间的平衡是一大挑战：高质量数据提供更实质性的学习信号，而网络爬虫数据有助于泛化和正则化 Elazar 等人（2024）；Longpre 等人（2024）。如 Shukor 等人（2025）所述，通过试错法选择数据混合成本高昂且耗时，目前已提出多种更高效的混合选择方法 Xie 等人（2023）；Fan 等人（2024）；Ye 等人（2025）。一种常见策略是运行小规模实验，并将结果外推至目标训练预算，然而实践者经常发现，在小规模调整的混合比例在更大规模上无法迁移 Kang 等人（2025）。在本工作中，我们确定了这一失败背后的关键因素：**重复不匹配**。当高质量数据稀缺时，在训练过程中必须多次重复。关键在于，重复次数会随着训练预算增长而变化，并且已有研究表明，对数据集的多轮遍历会显著影响模型性能 Muennighoff 等人（2023）。标准的基于缩放的混合选择忽略了这一效应：小型代理实验在高质量数据上施加的重复机制与目标运行根本不同，从而扭曲了损失景观并改变了表观最优混合比例，该效应随模型规模增大而增大（图1）。我们表明，控制这种重复不匹配可以很大程度上解决外推问题。我们的方法建立在 Li 等人（2025）在预训练期间首次使用的重复感知子采样程序上。该程序对所有数据源进行下采样，使得高质量数据经历与完整训练运行相同的重复次数，同时仅使用总 tokens 的一小部分。我们使用该程序将重复作为混合预测中的一个变量进行隔离。为验证这一点，我们将其与标准的缩放定律方法进行比较，后者从较短的训练运行中外推最优混合比例，而不匹配重复率。实验将有限的高质量数据集（WikiText Merity 等人（2017）或来自 PubMed 的生物医学文献（美国国家生物技术信息中心））与大规模网络爬虫语料库 FineWeb Penedo 等人（2024）相结合。我们首先研究双源情况，然后扩展到使用两个高质量数据集和 FineWeb 的三源设置。实验涵盖四种模型大小（30M 到 757M 参数），使我们能够追踪模型容量如何与混合预测中的重复动态相互作用。我们的发现如下：

- • **重复不匹配是小规模混合预测中的主要混杂因素。** 匹配目标运行的重复率（而不仅仅是减少训练预算）足以从小规模实验中恢复准确的混合预测。该效应在 WikiText 和 PubMed 作为高质量来源时一致，并从 124M 到 757M 参数范围内随模型大小单调增强。
- • **重复控制能够以极少的计算量实现准确的混合预测。** 在双源设置中，仅使用目标视野 tokens 约 1/16 的单一重复控制实验，即可为 757M 模型恢复出与最优值相差 0.05–0.10 的混合比例（WikiText 和 PubMed 均如此），相比之下，无重复控制时的误差为 0.65–0.75。要在没有重复控制的情况下达到可比精度，需要三到四个训练视野，消耗目标 token 预算的 44% 到 94%。
- • **当数据源增多时，需要更多实验来约束混合空间，但重复控制仍然有效。** 在 757M 参数下，仅需两个重复控制的视野即可在目标 token 预算的一小部分内恢复目标最优混合。在 124M 参数下，多个重复控制的视野优于两个基线，四个视野的预测与最优值基本匹配（损失 2.91950 对比 2.91820）。
- • **重复率应成为混合优化中的一个显式控制旋钮，而非预算和数据集大小的附带结果。** 我们的结果表明，控制重复动态（而非将其视为有限数据的副作用）对于在数据受限条件下进行可靠的混合预测至关重要。

## 2 背景

### 2.1 预训练中的数据混合

语言模型的预训练语料库结合了多个数据源，每个源所占比例对模型性能有重大影响（Du 等人，2022；Miranda 等人，2025）。通过试错法选择有效混合成本高昂（Shukor 等人，2025），这促使了一系列方法，旨在从小规模实验中预测良好的混合配置。这些方法包括基于缩放定律的方法，通过拟合参数函数来预测不同混合配置下的损失（Ge 等人，2025；Shukor 等人，2025；Ye 等人，2025）；代理模型方法，通过辅助训练信号学习领域权重（Xie 等人，2023；Fan 等人，2024）；以及将混合选择视为预测任务的回归方法（Liu 等人，2025a,b）。在此我们关注领域级混合，目标是确定每个数据源在训练混合中的比例，而非作用于单个样本的策略。

### 2.2 数据重复及其影响

当高质量数据有限时，在训练时对同一文档进行多次遍历通常是不可避免的。然而，这种重复对学习具有广为人知的非线性影响。Muennighoff 等人（2023）表明，对于固定计算预算，对数据集重复大约四次以内与使用新数据训练同样有效，而超过四次则会触发收益递减，性能最终趋于平缓。Xue 等人（2023）扩展了这一分析，发现多轮退化的严重程度取决于模型大小、数据集大小以及训练目标，并且较大模型更容易因在小数据集上过度重复而过拟合。标准的预训练缩放定律（Hoffmann 等人，2022；Kaplan 等人，2020）通常假设数据充足，并未考虑这些重复效应，从而对其在数据受限条件下的适用性提出了疑问。关键在于，这些发现意味着数据集在训练过程中被重复的次数不仅是有限数据预算的副作用，而是主动塑造损失景观的一个变量。当高质量数据集相对于训练预算较小时，重复次数会随预算增长而显著变化。这意味着，即使使用相同的混合比例，小型代理实验和目标训练运行也处于根本不同的重复机制下。

### 2.3 重复不匹配问题

尽管数据重复的影响已得到充分证实，但现有从小规模实验预测最优数据混合的方法并未显式控制这些重复动态。基于缩放定律的方法（Ge 等人，2025；Shukor 等人，2025；Ye 等人，2025）跨训练预算外推性能趋势，但没有考虑到受限数据源的重复次数在代理规模与目标规模之间会发生变化。代理模型方法（Xie 等人，2023；Fan 等人，2024）同样学习领域权重而未对重复进行建模。因此，这些方法隐含地假设混合比例与性能之间的关系在目标规模上仍然成立，而当重复动态不同时，这一假设就会失效。Li 等人（2025）引入了一种重复感知的子采样程序，间接解决了这个问题：通过对所有数据源进行下采样，使得高质量数据经历与完整训练运行相同的重复次数，该程序在仅使用总 tokens 一小部分的同时保留了重复动态。Li 等人（2025）在预训练期间使用该程序来指导数据混合决策，但并未将重复不匹配作为独立现象进行孤立，也未表征其何时重要。在本工作中，我们将重复不匹配确定为数据混合研究中一个此前未被认识的混杂因素，并表明控制它能够解决小规模混合预测在模型大小、数据集选择和数据源数量上的外推失败问题。

## 3 实验设置

为了验证重复不匹配是否解释了小规模混合外推的失败，我们跨多个高质量数据集、模型大小和训练领域数量进行实验。¹¹¹我们的代码可在 https://github.com/kevinzhou497/data-mixing-language-models 获取。

### 3.1 数据集

我们使用大小和质量各异、且在语言模型预训练中常用的数据集 Yang 等人（2025）；Bolton 等人（2024），以便研究在将较小的高质量数据集与较大的噪声源结合时，重复动态如何影响混合预测。每个数据集的更多细节见附录 A。

#### WikiText

Merity 等人（2017）包含来自 Wikipedia 的“优质”和“特色”列表的文章，提供了与一般网络爬虫形成对比的高质量数据源。在我们的实验中，我们使用 wikitext-103-raw-v1 实例。²²²https://huggingface.co/datasets/Salesforce/wikitext 分词后，训练集包含 116,881,107 个 tokens。模型性能在保留的 131,072 tokens 的 WikiText 验证集上评估。在所有实验中，我们将网络爬虫数据排除在验证集之外，仅对高质量领域进行性能评估。这使我们能够更直接地评估数据重复和混合组成的影响，因为对噪声网络文本的验证可能会掩盖由混合策略引起的差异。当高质量数据是优化的主要对象时，专注于精选领域可提供更稳定和可解释的评估信号，这与先前使用精选领域验证数据评估预训练混合的研究一致 Muennighoff 等人（2023）。

#### PubMed

是生物医学文献的集合（美国国家生物技术信息中心），对应有一个数据集³³³https://huggingface.co/datasets/ncbi/pubmed 包含其文章的引文记录。许多记录包含摘要文本，我们将其用作数据样本。为了大致匹配 WikiText 训练集的大小，我们采样摘要直到总 token 数达到约 1.2 亿，得到包含 120,000,060 个 tokens 的训练集。评估在对 PubMed 保留的 131,072 tokens 验证集上进行，与 WikiText 的处理方式一致。

#### FineWeb

Penedo 等人（2024）是一个大规模网络爬虫文本语料库。

重复不匹配：为何数据混合实验无法扩展以及如何修复

相似文章

数据约束下的混合预训练缩放定律

始终学习，始终混合：高效简单的全时数据混合

InfoLaw：基于质量加权混合数据与重复度的大型语言模型信息缩放定律

大语言模型预训练的数据混合：综述与展望

更少数据，更快训练：重复小数据集通过采样偏差加速学习

提交意见反馈