重新思考大模型训练中的数据策展:在线重加权比离线方法具有更好的泛化能力

arXiv cs.LG 论文

摘要

本文介绍了 ADAPT,这是一个用于大语言模型数据策展的在线重加权框架。该框架通过损失加权在训练过程中动态调整样本重要性,在跨基准测试的泛化能力方面优于离线筛选和混合方法。

arXiv:2605.05227v1 公告类型:新发布 摘要:数据策展是大语言模型(LLM)训练中至关重要但尚未得到充分探索的领域。现有的方法(如数据筛选和数据混合)采用离线范式,与训练过程脱节。这种分离引入了工程开销,并使策展过程变得脆弱:一旦模型或任务发生偏移,整个流水线必须重新运行。此外,离线方法通过硬过滤或重采样改变数据规模,往往会牺牲数据多样性并损害泛化能力。我们建议将数据策展重新构思为一个在线重加权问题,即通过损失加权在训练过程中动态调整样本重要性,而不是依赖静态的预处理。具体而言,我们提出了 ADAPT(用于预训练和微调的自适应数据重加权),这是一个动态在线框架,通过基于相似性的质量信号引导的自适应每样本学习率来对训练样本进行重加权,且不改变训练样本的数量。与强制静态数据分布的离线方法不同,ADAPT 充当隐式课程学习器,随着模型的演进,逐步将关注点从粗粒度模式转移到细粒度的语义区别上。在指令微调和大规模预训练上的实验表明,ADAPT 始终优于离线筛选/混合方法和先前的在线方法,在同等浮点运算次数(FLOPs)下实现了更强的跨基准泛化能力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 06:44

# 重新思考大模型训练中的数据整理:在线重加权比离线方法具有更好的泛化能力

来源: https://arxiv.org/html/2605.05227

Wanru Zhao$^1$, Yihong Chen$^2$, Yuzhi Tang$^{3\dagger}$, Wentao Ma$^{3\dagger}$, Shengchao Hu$^4$, Shell Xu Hu$^5$, Alex Iacob$^1$, Abhinav Mehrotra$^5$, Nicholas D. Lane$^1$

$^1$剑桥大学, $^2$OATML, 牛津大学, $^3$多伦多大学, $^4$上海交通大学, $^5$三星人工智能中心
$\dagger$同等贡献.

###### 摘要

数据整理是大语言模型 (LLM) 训练中至关重要但研究不足的一个领域。现有的方法,如数据选择和数据混合,采用**离线**范式,与训练过程脱节。这种分离引入了工程开销,并使整理过程变得脆弱:在模型或任务发生转变时,整个流水线必须重新运行。此外,离线方法通过硬过滤或重采样改变数据规模,往往牺牲数据多样性并损害泛化能力。

我们提出将数据整理重新思考为一个**在线**重加权问题,其中样本重要性通过损失加权而非静态预处理在训练期间动态调整。具体而言,我们提出了 **ADAPT**(用于预训练和微调的自适应数据重加权),这是一个动态在线框架,它利用基于相似性的质量信号引导的自适应每样本学习率来重新加权训练样本,而不改变训练样本的数量。与强制执行静态数据分布的离线方法不同,ADAPT 充当隐式课程学习者,随着模型的演进,逐步将焦点从粗粒度模式转移到细粒度语义区别。在指令微调和大规模预训练上的实验表明,ADAPT 持续优于离线选择/混合方法和先前的在线方法,在同等 FLOPs 下实现了更强的跨基准泛化能力。![[无标题图片]](https://arxiv.org/html/2605.05227v1/figures/other/hf_logo.png)https://huggingface.co/DATA-ADAPT ![[无标题图片]](https://arxiv.org/html/2605.05227v1/figures/other/github_logo.png)https://github.com/Ryan0v0/ADAPT

$\dagger$同等贡献.

## 1 引言

大语言模型 (LLMs) 在多样化的任务中展示了非凡的能力 [brown2020language; chowdhery2022palm; touvron2023llama],但其泛化能力通常取决于训练数据的质量,包括其多样性和混合比例 [hoffmann2022training; kaplan2020scaling]。虽然最近的一些努力试图通过架构干预来规避数据质量问题并提高泛化能力 [peyrard2022invariant; chen2023improving; bengio2025superintelligent],但大多数务实的实践仍然依赖于为模型和任务整理“正确”的数据集。数据整理——决定保留哪些数据以及如何加权——已成为大语言模型开发的基石。另一方面,数据整理的过程在很大程度上仍然是“秘方”,其流水线依赖于不透明的启发式方法、临时的工程选择或昂贵的试错,而非基于原则的框架。

目前的数据整理方法大多遵循**离线**范式,分为两派:数据选择,保留有价值示例的子集;以及数据混合,调整采样频率以重新平衡分布。尽管存在差异,但这两种方法通常遵循多阶段流水线:(1) 使用代理模型进行训练或提取特征,(2) 在验证集上计算作为选择或加权标准的质量信号,以及 (3) 在整理后的数据上重新训练主模型。尽管在某些情况下有效,但由于其静态和减法性质,该范式存在根本性缺陷(第 4 节)。首先,它忽略了训练动态:数据样本的价值并非静态,而是随着模型的学习而变化。离线选择基于代理模型冻结这一价值,导致与训练模型不断变化的需求错位。其次,它损害了多样性:通过依赖硬过滤来选择固定子集,离线方法冒着丢弃对稳健泛化至关重要的广泛数据分布的风险。因此,生成的子集往往过拟合特定基准且脆弱,每当模型架构或语料库发生变化时,都需要重新运行整个流水线。

相比之下,我们提出转向**在线重加权**范式,这与离线选择不仅在**何时**计算信号上根本不同,而且在**如何**使用数据上也有根本区别。在线重加权不是基于静态分数硬过滤子集,而是保留完整数据集以保持多样性,但通过损失加权动态调节每个样本的贡献。这在与离线的“硬切分”相比时保留了数据多样性,同时智能地控制每个样本在参数更新中的“步长”以适应不断变化的模型状态。

为了解决离线数据整理的局限性,我们提出了一个统一的在线重加权框架 **ADAPT**(用于预训练和微调的自适应数据重加权),它通过基于相似性的加权将训练样本与验证集对齐。我们的方法几乎不增加额外开销,却实现了优越的跨基准泛化能力。在统一评估协议下,它在大规模预训练和指令微调设置中,始终优于离线选择/混合策略和先前的在线重加权方法。

#### 我们的贡献.

这项工作做出了以下贡献:

1.  **数据集整理流水线的形式化和统一。** 我们提出了数据整理的统一视图,表明数据选择、混合和平衡都可以表达为*数据重加权*的特例。这种观点将焦点从离线预处理转移到训练过程中数据权重的动态调整,提供了一个公平的协议,通过*在线数据重加权*的统一视角来查看和评估它们。
2.  **在线样本级重加权方法。** 我们引入了一种新的在线全局重加权算法,在该统一形式化和协议下有效。它采用由样本质量信号引导的自适应每样本学习率,在不明确改变数据集大小的同时,在训练期间动态调整样本权重。
3.  **跨任务的性能和泛化能力更好。** 在指令微调和大规模预训练实验中,我们的框架相比包括 LESS [xia2024less]、DoReMi [doremi] 和 RegMix [liu2024regmix] 在内的离线基线以及其他在线重加权方法 [sow2025dynamic],每 FLOP 的准确率提高了高达 7.2%,并在基准测试中展示了强 6.1% 的域外泛化能力。

## 2 背景和相关工作

### 2.1 大语言模型的数据整理

研究人员和工程师通常依靠网络爬虫来收集用于训练大语言模型的大型数据集 [gpt3; redpajama; penedo2024finewebdatasetsdecantingweb; tang2024txt360; bai2023qwen; kandpal2025common]。然而,这些爬虫通常包含大量低质量或不相关的内容,这使得数据整理对于构建高质量训练集变得必要。大多数数据整理工作集中在提高模型性能的方法上 [raffel2020exploring; gpt3; gopher; penedo2023refinedweb; dolma],包括按语言过滤 [raffel2020exploring; xue2020mt5]、基于启发式的过滤 [pile; gopher; penedo2023refinedweb; dolma]、质量过滤 [du2022glam; xie2023data]、数据去重 [Lee2021DeduplicatingTD] 和混合 [xie2023doremi; cerebras2023slimpajama; albalak2023efficient]。然而,目前整理此类数据集的方法通常是临时的。我们旨在开发一种基于原则且自动化的数据整理方法,该方法还能统一不同的处理阶段。

#### 预训练数据整理.

几项近期研究 [xie2023doremi; chen2023skill; fan2023doge; thakkar2023self] 探讨了各种重加权技术,以增强语言模型预训练的泛化能力和效率。例如,[xie2023doremi] 和 [fan2023doge] 旨在找到预训练语料库的最佳混合比例,以提升跨领域的性能。[chen2023skill] 提出了一种有序技能学习方法来选择数据,衡量其在持续预训练和微调中教授相互依赖技能的有效性。虽然这些工作有效,但它们旨在组级别,而我们的工作探索样本级别的重加权,在模型训练动态中提供细粒度控制。实例级重加权已在 LLM 的预训练设置中使用 [chen2024take; jiang2024importance],其中 mini-batch 中的每个样本根据其损失值进行加权。相比之下,我们的研究工作考虑了模型状态的各种自适应学习率与不同质量信号的效果,以增强 LLM 预训练和微调阶段的性能和泛化能力。

#### 指令数据整理.

研究表明,优先保证数据质量和多样性而非数量,对提升指令遵循能力更有帮助 [cao2023instruction; chen2023alpagasus; bukharin2023data; du2023mods; liu2023makes; li2023one]。指令微调数据包括从传统 NLP 任务整理而来的基于任务的数据集 [wang2022super; sanh2022multitask; wei2022finetuned; longpre2023flan],以及开放式数据集 [alpaca; DatabricksBlog2023DollyV2; kopf2023openassistant; xu2023wizardlm; mukherjee2023orca; zhou2023lima; ding2023enhancing]。在我们的工作中,我们专注于在指令微调期间自适应调整数据权重,而不显式减少指令数据样本的数量,以获得具有更好泛化能力的模型。

### 2.2 数据整理中常用的质量信号

- **词汇相似性 (BM25)** [silva2024improving] 通过稀疏检索评分量化训练数据和验证数据之间的基于术语的重叠:
  $$ s_{\text{BM25}}(x) = \frac{1}{\|\mathcal{D}_{\text{val}}\|} \sum_{v \in \mathcal{D}_{\text{val}}} \text{BM25}(x, v). \quad (1) $$
  该指标捕获表面层面的文本相似性,而不涉及语义理解。

- **语义相似性 (Embedding)** [rubin2021learning] 使用预训练编码器测量密集表示的对齐情况:
  $$ s_{\text{Embed}}(x) = \frac{1}{\|\mathcal{D}_{\text{val}}\|} \sum_{v \in \mathcal{D}_{\text{val}}} \cos(\phi(x), \phi(v)), \quad (2) $$
  其中 $\phi(\cdot)$ 表示冻结的嵌入模型。该方法捕获超出词汇重叠的语义邻近性。

- **分布对齐 (困惑度)** [antonello2020selecting] 在参考语言模型 $\theta_0$ 下评估似然:
  $$ s_{\text{PPL}}(x) = -\log P_{\theta_0}(x). \quad (3) $$
  较低的困惑度表明与参考语料库具有更强的分布对齐。

- **基于梯度的影响** [xia2024less] 通过验证损失减少的一阶近似估计训练效用:
  $$ s_{\text{Grad}}(x) = \langle \nabla_{\theta} \ell(x; \theta_0), \nabla_{\theta} \ell(\mathcal{D}_{\text{val}}; \theta_0) \rangle, \quad (4) $$
  其中 $\theta_0$ 表示代理模型。该指标直接量化了在 $x$ 上的训练如何影响验证集 $\mathcal{D}_{\text{val}}$ 上的性能。

## 3 数据整理的统一形式化

#### 设置.

给定两个数据集:**训练集** $\mathcal{D}_{\text{train}}$ 和 **验证集** $\mathcal{D}_{\text{val}}$。通常,验证集的大小远小于训练集。当 $\mathcal{D}_{\text{val}}$ 从下游测试数据的分布中采样时,验证数据集 $\mathcal{D}_{\text{val}}$ 被视为**域内** (in-domain)。另一方面,训练数据集 $\mathcal{D}_{\text{train}}$ 由**域内**和**域外** (out-of-domain) 样本组成。这种情况发生在使用网络爬虫从整个互联网收集训练数据时。我们的目标是在验证集 $\mathcal{D}_{\text{val}}$ 的指导下对训练集 $\mathcal{D}_{\text{train}}$ 进行子采样或加权,以便模型训练受域外样本的影响较小。

### 3.1 数据质量信号的设计空间

在第 2 节中,我们提出了一个数据质量评估的统一框架,其中*评分函数* $s(x) \equiv s(x; \theta, \mathcal{D}_{\text{val}})$ 的形式为每个数据示例 $x$ 分配一个质量信号,该信号可选择性地依赖于(代理)模型 $\theta$ 和验证集 $\mathcal{D}_{\text{val}}$。

### 3.2 离线数据整理

分数在训练之前仅使用一次(例如,使用代理模型 $\theta_0$ 和固定的验证集 $\mathcal{D}_{\text{val}}$)。生成的权重 $\{w(x)\}_{x \in \mathcal{D}_{\text{train}}}$ 是固定的,并用于决定将哪些训练示例传递给实际训练阶段。

- **数据选择(样本级二值权重)**
  数据选择(或过滤)在预训练开始前移除部分训练语料库。它保留质量信号高于某个阈值 $\tau$ 的数据示例:
  $$ \mathcal{D}'_{\text{train}} = \{x \in \mathcal{D}_{\text{train}} \mid s(x) \ge \tau\}. $$
  从数据重加权的角度来看,过滤数据点相当于分配二值权重:
  $$ w(x) = \mathbf{1}[s(x) \ge \tau] \in \{0, 1\}. $$

- **数据混合(域级分数权重)**
  数据混合可以看作是一种在域级别操作的粗粒度数据重加权方法。换句话说,同一域内的数据点接收相同的质量分数。将所有域分数 $\{s_d\}_{d \in \text{domains}}$ 拉出并归一化,以获得每个域 $d$ 的数据混合概率:
  $$ w_d = \frac{g(s_d)}{\sum_{d'} g(s_{d'})}, $$
  其中 $g$ 将分数转换为非负数,常见选择是 $g: s \mapsto \exp(s)$。因此,$w_d$ 确定总训练预算 $B$ 中有多少分配给每个域:$B_d = w_d B$。或者,可以通过以概率 $w_d$ 采样域(概率混合)或分配固定配额 $B_d$(配额混合)来实现训练。由于 $w_d$ 在训练前决定,混合是一种**离线**操作,改变了每个域贡献的有效示例数量。

### 3.3 在线数据整理

在这种设置中,评分函数依赖于不断演变的模型状态 $\theta_t$,在某些情况下还依赖于动态验证集。生成的权重 $\{w_t(x)\}_{x \in \mathcal{D}_{\text{train}}}$ 在整个训练过程中演变,调整示例的*梯度贡献*,同时保持训练集 $\mathcal{D}_{\text{train}}$ 的完整体积。

#### 数据重加权(样本级分数权重)

数据重加权在保持训练集大小不变的同时为示例分配归一化权重。与 3.2 节类似,示例 $x$ 的质量分数转换为非负权重:$w(x) = g(s(x))$

相似文章

学习,快与慢:走向持续适应的LLMs

Hugging Face Daily Papers

一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。

DART:通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移 来源:[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要 经过安全调优的大语言模型(LLM)通常会回避承认人口统计差异,即使这种承认在事实上是正确的(例如,基于血统的

从自适应列表排序角度重新审视自适应检索增强生成的必要性

arXiv cs.CL

本文提出了 AdaRankLLM,一个自适应检索框架,通过列表排序动态过滤检索到的段落,对自适应 RAG 的必要性提出质疑。研究表明自适应检索对于较弱模型充当噪声过滤器,对于更强模型充当成本效率优化器,在多个数据集和 LLM 上进行了广泛实验。

默认极化:LLM 内容策展中的推荐偏差审计

arXiv cs.CL

本文对 OpenAI、Anthropic 和 Google 的基于 LLM 的内容策展推荐偏差进行了大规模审计,使用了来自 Twitter/X、Bluesky 和 Reddit 数据的 540,000 次模拟选择。研究发现 LLM 系统性地放大极化现象,在毒性处理方面表现出不同的权衡,并显示出显著的政治倾向偏差,倾向于左倾作者,尽管数据集中右倾作者占多数。