LLM持续预训练中最佳超参数的可预测缩放规律
摘要
本文发现了LLM持续预训练中最佳超参数(学习率、批量大小)的可预测缩放规律,提出了一个两阶段框架,可将超参数搜索开销降低高达90%,同时保持性能。
arXiv:2606.05610v1 公告类型: 新
摘要: 大型语言模型(LLM)持续预训练的效果取决于超参数配置,如学习率和批量大小。然而,当前的做法通常依赖于启发式方法或网格搜索,导致训练不稳定和成本过高。在这项工作中,我们首先通过实验发现,在整个持续预训练过程中,最佳超参数遵循稳定且可预测的缩放规律。基于这些洞察,我们提出了一种新颖的框架,用于在给定检查点下建立计算预算与最佳超参数之间的定量关系。我们的方法包括两个阶段:(1) \textit{经验规律发现},即训练小型代理模型,通过标准的损失-计算缩放规律推导出将计算预算映射到最佳超参数的函数;(2) \textit{状态感知超参数预测},即评估初始检查点的验证损失,并使用逆缩放规律来估计其\textit{等效预训练计算量}——即从零开始达到相同损失所需的计算量。将此与计划的计算预算相结合,我们预测目标运行的最佳超参数。实验结果表明,我们的方法可将超参数搜索开销降低高达90\%,同时实现与基线相当或更优的性能。这种与模型无关的框架可跨架构推广,为从任意给定点开始的各种持续预训练场景提供了一种原理性且高效的方法。
查看缓存全文
缓存时间: 2026/06/05 08:07
# 大语言模型持续预训练中超参数的可预测缩放定律
来源:https://arxiv.org/html/2606.05610
周永伟¹∗,刁俊程¹,²∗,尚俊林³,李培光¹,翁荣祥¹
1 美团
2 中国科学院大学
3 哈尔滨工业大学
ywzhouphd2018@gmail\.com diaojuncheng24@mails\.ucas\.ac\.cn
###### 摘要
大语言模型(LLM)的持续预训练效果高度依赖于超参数配置,例如学习率和批量大小。然而,当前实践往往依赖经验法则或网格搜索,导致训练不稳定且成本过高。本文首先通过实验发现,在整个持续预训练过程中,最优超参数遵循稳定且可预测的缩放定律。基于这些发现,我们提出了一种新颖框架,用于建立给定检查点的计算预算与最优超参数之间的定量关系。我们的方法包含两个阶段:(1)经验定律发现,通过训练小型代理模型,依据标准损失-计算缩放定律,推导出计算预算到最优超参数的映射函数;(2)状态感知超参数预测,评估初始检查点的验证损失,利用逆缩放定律估计其等效预训练计算量——即从零训练达到相同损失所需的计算量。结合计划的计算预算,我们可预测目标运行的最优超参数。实验结果表明,与基线方法相比,我们的方法可将超参数搜索开销降低高达90%,同时达到相当或更优的性能。该模型无关框架可跨架构泛化,为从任意给定检查点开始的多样化持续预训练场景提供了原理性且高效的方法论。
# 大语言模型持续预训练中超参数的可预测缩放定律
周永伟¹∗,刁俊程¹,²∗,尚俊林³†††通讯作者,李培光¹,翁荣祥¹
1 美团
2 中国科学院大学
3 哈尔滨工业大学
ywzhouphd2018@gmail\.com diaojuncheng24@mails\.ucas\.ac\.cn
## 1 引言
持续预训练(CPT)对于将LLM适配到特定领域应用至关重要(Gupta等,2023;Rozière等,2023;Azerbayev等,2024),它提供了一种比从头训练更高效的计算方案。在此适配过程中,LLM编码了复杂的知识结构,使其对超参数配置高度敏感(Ke等,2023)。不恰当的学习率(LR)和批量大小(B)常导致训练不稳定或性能退化(Wen等,2024;Luo等,2024)。然而,当前实践仍依赖经验法则或穷举网格搜索,计算成本高昂且缺乏原理性指导(Yang等,2022;Defazio等,2024)。
图1:持续预训练中优化超参数的缩放定律
尽管缩放定律为从头训练提供了此类指导(Kaplan等,2020;Hernandez等,2021),但其在CPT中的应用仍远未充分探索。推导CPT的缩放定律面临两个核心挑战:(1)当训练不从零开始时,模型状态与最优超参数之间是否存在可预测关系尚不明确(Gupta等,2023;Ibrahim等,2024);(2)预训练与目标数据之间的分布偏移使得量化初始检查点对训练过程的有效贡献变得复杂(Gadre等,2024;Xie等,2024)。本文首先通过实验发现,CPT中的最优超参数确实遵循稳定且可预测的缩放定律。利用这一洞察,我们通过建立框架解决了超参数选择挑战,该框架可在给定检查点上进行零样本预测,量化计算预算与最优配置之间的关系。
**应对挑战1:发现超参数缩放定律。** 为了探究这些定律的存在性,我们在CPT数据上系统性地训练了不同规模和超参数配置的小型代理模型。实验揭示了一致的超参数缩放定律(图1):最优批量大小随计算预算单调增加,而最优学习率则相应下降。这一经验发现证实,CPT保持了稳定的缩放关系——与从头训练的定律不同——并且考虑了初始检查点中编码的先验知识。基于这些观察,我们推导出将计算预算直接与最优LR和B相关联的映射函数,依据标准损失-计算缩放定律。
**应对挑战2:量化初始训练状态。** 为了将这些定律应用于任意检查点,我们引入了**等效预训练计算量**(C_pre)的概念。与从头训练不同,CPT从一个非零的优化状态开始,这一状态历来难以量化。我们提出,任何检查点都可以被定位在连续训练轨迹上的特定坐标点。通过将模型的验证损失映射到目标域上的计算等效值,C_pre形式化地量化了其相对于新任务的**初始训练状态**。这将初始检查点从“黑箱”转化为可测量的起始状态,其中总有效计算量定义为C_total = C_pre + C_cpt,C_cpt为计划的CPT预算。通过将C_total代入我们推导的超参数缩放定律(公式3和4),我们可以对目标运行的最优学习率和批量大小进行零样本预测。
总之,我们的主要贡献有三方面:(1)我们建立了持续预训练中优化超参数的缩放定律,定量地关联了计算预算与最优学习率和批量大小,为经验法则和网格搜索提供了原理性替代方案。(2)我们提出了**等效预训练计算量**,用以形式化量化从初始检查点继承的训练状态。该指标将任意起始点转化为可测量的坐标,从而能够对模型生命周期任何阶段的超参数进行可靠预测。(3)我们在参数规模高达Dense-8B和MoE-3B的模型上实证验证了我们的框架,结果表明,与传统的网格搜索基线相比,该方法将计算成本降低了70–90%,同时持续提升了训练稳定性和性能。
图2:持续预训练中最优超参数预测的总体框架
## 2 方法
### 2.1 问题定义与挑战
本文研究**超参数缩放定律**的存在性,该定律定量地关联持续预训练(CPT)中的计算预算与最优超参数配置。建立这样的定律将为模型生命周期任何阶段的超参数选择提供原理性框架,替代计算成本高昂的经验方法。然而,构建这些定律需要克服两个基本挑战:
- **存在性与函数表征:** 当训练并非从随机初始化开始时,计算预算(或验证损失)与最优超参数之间是否存在可预测的单调关系,这在理论上和实验上尚未得到验证。如果存在这种关系,确定其具体函数形式(例如幂律)并确保其在不同模型规模和架构下的稳定性,是一项艰巨任务。
- **量化初始优化状态:** 与从头训练不同,CPT从继承自预训练检查点的非零优化状态开始。鉴于预训练和CPT通常涉及不同的数据分布,初始检查点在目标域上的进展方面相当于一个“黑箱”。核心挑战在于精确地将该检查点定位到连续训练轨迹上的可测量坐标——具体而言,将其继承的知识量化为相对于目标数据的等效计算预算。
### 2.2 整体框架
为了应对非零初始化和分布偏移的挑战,我们提出一个两阶段框架,用于建模最优超参数沿连续优化轨迹的演变(图2)。该框架为超参数迁移提供了统一方法,将任意检查点的“黑箱”初始状态转化为可量化的计算坐标。
**阶段1:经验定律发现。** 我们首先通过在目标CPT数据上,以不同的超参数配置(LR, B)训练不同规模N的小型代理模型,来表征缩放行为。通过分析不同验证损失下的最优超参数配置,我们建立了两个基础组件:(1)**超参数-损失映射:** 最优超参数与所达到的验证损失之间的函数关系,记为B_opt = f(L) 和 LR_opt = g(L);(2)**损失-计算缩放定律:** 描述验证损失如何随目标分布上的计算预算C变化的标准幂律关系L(C)。
**阶段2:状态感知超参数预测。** 给定一个预训练检查点 M_θ₀,其在目标域上的初始验证损失为 L_init,我们对最优CPT配置进行零样本预测。首先,利用逆损失-计算缩放定律来估计**等效预训练计算量** C_pre = L⁻¹(L_init)。这一步有效将检查点定位在训练轨迹上的特定坐标点。其次,定义**总有效计算量**为 C_total = C_pre + C_cpt,其中 C_cpt 是计划的CPT预算。最后,通过评估 f(C_total) 和 g(C_total)(或等价地 f(L_target) 和 g(L_target))来预测目标运行的最优超参数。
### 2.3 经验定律发现
此阶段建立验证损失L与最优超参数配置之间的基础映射:B_opt(L) 和 LR_opt(L)。由于损失L本身随计算预算C遵循可预测的缩放定律(即 L = 𝒮(C)),这些关系隐含地定义了最优超参数随计算量变化的轨迹:B_opt = f(𝒮(C)) 和 LR_opt = g(𝒮(C))。
#### 最优性定义。
对于给定的模型规模和数据集,我们将针对目标损失L的最优配置 (B_opt, LR_opt) 定义为:能够以最少的训练计算量达到该目标损失的配置。形式化地,在所有达到验证损失 ≤ L 的配置 H = {(B, LR)} 中,如果 (B_opt, LR_opt) 能最小化总计算量C(以FLOPs度量),则它是最优的,从而识别出达到特定优化状态的最计算高效路径。
#### 通过代理模型收集经验数据。
为了发现这些定律,我们利用在目标CPT数据集上训练的小型代理模型(N ∈ {100M, 500M})。对于每种规模,我们执行对B和LR的广泛网格搜索,监测跨多领域基准(通用、数学、代码)的验证损失。每个 (N, B, LR) 三元组产生的损失-计算轨迹为我们的缩放分析提供了经验基础。
#### 三步推导过程。
我们通过以下步骤推导映射函数:
**步骤1:构建等损失曲线。** 对于目标损失水平 L̂,我们识别每个超参数配置所需的数据令牌数 D̂。通过将这些估计点绘制在 (B, LR) 平面上,我们构建等损失曲线,如图3所示。曲线上每个点对应在特定超参数配置下达到目标损失 L̂ 所需的数据令牌数 D̂。每条曲线的顶点——代表达到 L̂ 所需的最小 D̂——唯一地标识了最优对 (B_opt(L̂), LR_opt(L̂))。
**步骤2:函数拟合。** 我们观察到损失与最优超参数之间的关系遵循幂律趋势。我们将收集的对 {(L̂ᵢ, B_opt,ᵢ)} 和 {(L̂ᵢ, LR_opt,ᵢ)} 拟合到以下参数形式:
B_opt(L) = f(L) 和 LR_opt(L) = g(L)。 (1)
**步骤3:与计算缩放定律组合。** 遵循 Kaplan 等人 (2020),我们将损失-计算关系建模为:
L(C) = L₀ + α · C⁻ᵞ, (2)
其中 L₀ 是不可约损失,γ 是缩放指数。通过将公式 (2) 代入我们拟合的函数,得到最终的**计算量到超参数的缩放定律**:
B_opt(C) = f(L₀ + α · C⁻ᵞ), (3)
LR_opt(C) = g(L₀ + α · C⁻ᵞ)。 (4)
这些定律使得对任意目标计算预算 C_total 的最优超参数进行零样本预测成为可能,无需进一步调优。
### 2.4 状态感知超参数预测
给定一个初始预训练检查点 M_θ₀ 和一个目标CPT计算预算 C_cpt,此阶段通过将该检查点定位到先前推导的缩放轨迹上来预测最优超参数。核心挑战在于量化预训练模型在被引入新数据分布时的优化状态。
我们的框架基于一个假设:预训练模型在目标域上的状态可以通过一个**等效预训练计算量** (C_pre) 唯一表征。我们将 C_pre 定义为相似文章
数据约束下的混合预训练缩放定律
本文研究了在混合预训练中稀缺目标数据与丰富通用数据之间的权衡,发现重复是驱动性能的关键因素,并且混合训练能容忍目标数据重复15-20次。我们引入了一个考虑重复影响的缩放定律,以优化数据约束条件下的混合配置。
@maximelabonne:量化超参数迁移与嵌入层学习率的重要性(第一张截图,Kalra 和 Ba…
本文介绍了一个量化大语言模型中超参数迁移的框架,并发现在使用 AdamW 训练时,μP 相对于 SP 的优势主要源于提高了嵌入层学习率。此外,还探讨了权重衰减及其他因素的影响。
训练利润最优LLM的理论
本文提出了一种经济模型,结合缩放定律与微观经济学理论,分析大语言模型在利润最优情况下的训练策略,权衡模型质量、训练成本与硬件效率等因素。
快慢学习:迈向持续适应的大语言模型 [R]
本文提出了一种用于大语言模型的快慢训练框架,该框架结合参数更新与上下文优化,以提高样本效率并减少持续学习过程中的灾难性遗忘。
Nous Research 发布 Token Superposition Training,可将 LLM 预训练速度提升高达 2.5 倍,覆盖 270M 至 10B 参数模型
Nous Research 发布 Token Superposition Training (TST),这是一种可将 LLM 预训练速度提升高达 2.5 倍的方法,覆盖 270M 至 10B 参数模型,在不改变架构或数据的情况下减少实际运行时间。