预算受限微预训练的分阶段因子筛选

arXiv cs.LG 论文

摘要

本文提出了一种适用于预算受限微预训练的分阶段因子筛选工作流,表明短期的设计实验能够识别稳定的超参数惩罚方向,并支持“筛选-优化”策略。

arXiv:2606.05186v1 公告类型:新 摘要:预算受限的微预训练通常需要在更大的搜索预算投入之前,在共享加速器上对许多候选方案进行初步筛选。我们研究了在此场景下,分阶段的分数因子工作流能否恢复稳定的早期效应结构。在固定的自动研究派生单GPU训练循环中,我们执行了613次实验,包括2分钟、5分钟和10分钟的试点及后续筛选实验;5分钟和10分钟的全16条件种子重跑;针对性的种子锚点检查;同主机贪婪和匹配成本随机基线;一个60分钟的桥接包;以及通过24小时的有界Windows A100和Linux L40S锚点延续。总批次、深度和宽度的主要惩罚在短预算下最大,随着预算增加而减小。在预先声明的种子全筛选系列中,经过预算内Benjamini-Hochberg校正后,D、A、B和C在5分钟和10分钟时保留了非零估计,而E则没有。随机搜索可以在32条件空间中达到强候选,但反复落在同一低惩罚区域,且缺乏因子归因。60分钟桥接锚点的均值最低,尽管该包未能将工作流优化与更大桥接模型的能力优势分开。在两个主机的12小时和24小时有界三锚点延续中,桥接的样本均值最低,非桥接排序则对主机敏感。因此,我们给出一个有界方法结果:使用短期设计筛选来识别高惩罚方向,通过重复运行确认有潜力的锚点,并在缩减空间中局部优化。证据支持在24小时内、两个主机上的桥接中心推荐,而非硬件不变的排名或通用超参数优化的优越性。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:08

# 预算约束下微预训练的分阶段因子筛选
来源:https://arxiv.org/html/2606.05186
\(2026\-04\-27\)

###### 摘要

在自动化研究循环中,预算约束下的微预训练很常见,因为许多候选方法需要在共享加速器上进行分类筛选,之后才能投入更大的搜索预算。当前最优轨迹可以找到更好的方法,但不能识别出哪些因素驱动了早期性能差异。我们测试了一个分阶段的部分析因工作流是否能在严格的墙钟预算下恢复稳定的早期效应结构。

在一个固定的自动研究派生的单GPU训练循环上,我们运行了613次实验,涵盖2、5和10分钟的试点和后续筛选;5和10分钟的完整16条件带种子重跑;定向锚点检查;同主机贪心基线和匹配成本随机基线;一个60分钟的桥接包;以及跨越24小时的带边界Windows A100和Linux L40S锚点延续。总批次、深度和宽度的主要惩罚在短预算下最大,并随预算增加而放松。在预先声明的带种子完整筛选族中,D、A、B和C在5和10分钟时在预算内Benjamini-Hochberg校正后保留非零估计,而E则没有。重跑完整的D固定后续分析显示交互作用存在,但绝对值幅度小于主惩罚。在这个32条件空间中,随机搜索可以达到强当前最优,但重复地落在同一个低惩罚区域,且没有因子归因。60分钟桥接锚点最佳,尽管该包未能区分工作流改进与更大桥接模型的能力优势。在两个主机上的12小时和24小时有界三点锚点延续中,桥接的样本均值最低,而非桥接顺序对主机敏感。

因此我们提出一个带边界的方法学结果:使用短设计筛选来识别高惩罚方向,在重复运行下确认有希望的锚点,并在缩减空间内局部细化。证据支持在两种主机上持续24小时的桥接中心推荐,而不是硬件不变的排名或通用的超参数优化优越性。

## 1. 引言

自动化训练工作流使得启动许多短运行变得容易,但它们并没有使早期训练行为更容易解释。当前最优轨迹可以定位一个更好的方法,但无法识别改进是来自深度、宽度、批大小、学习率,还是它们之间的特定交互作用。如果目标是早期结构理解而不仅仅是当前最优改进,那么实验设计就很重要。

本文在预算约束的微预训练机制中研究这个设计问题。我们询问一个紧凑的分阶段因子筛选是否能在严格的墙钟预算下识别稳定的早期惩罚方向,以及由此产生的信号是否足够强以支持一个实用的先筛选后优化工作流。重点不是长期收敛或完全的跨硬件等价性。重点是:在更大的搜索预算投入之前,在一个可运行的训练循环上,可以早期、廉价且可重复地学到什么;以及使用一个有限的后续跨主机检查来测试最强的锚点级信号是否在原始运行时路径之外仍然可见。

我们在主主机上测试两个有界假设。H1:当墙钟预算从2分钟增加到10分钟时,来自总批量和模型大小的主导早期主效应惩罚显著放松。H2:经过筛选和局部桥接细化后,缩减的居中宽度区域在60分钟和后续的锚点级延续中仍具有信息性,通过保持与预先声明的对照在主主机上的分离,并保持与有界贪心当前最优相当或更好。

我们的证据支持一个狭窄的方法学结论。在主主机上2到10分钟的预算下,批量和模型大小的惩罚主导早期效应结构,并随着预算增加显著放松。5和10分钟筛选的完整带种子重跑显示,D、A、B和C在预算内BH-FDR校正后保留非零估计,而E则没有。重跑完整的后续分析显示交互作用真实存在但绝对值较小。一个针对性的多种子确认层显示,在选定的锚点子集中,预算和条件结构主导种子身份。一个匹配成本的随机基线显示,在这个小空间中强当前最优也可以偶然找到,但大多数情况下是落在由筛选识别的同一个低惩罚区域。一个后续的60分钟桥接包覆盖四个预先声明的锚点,表明缩减空间的桥接区域在更长的时间跨度上仍然具有操作信息性,但存在该锚点集内部未解决的能力混杂问题。更后来的在Windows和Linux上的12小时和24小时三点锚点延续保持桥接锚点在两个主机上样本均值最低,同时再次显示其余锚点层级对主机敏感。综合来看,这些结果支持了这种机制下的分阶段工作流:早期筛选,确认锚点区域,然后在缩减空间内局部细化。

## 2. 贡献

本文做出三项贡献。

1. 1. 提出了一种针对微预训练的分阶段短时间跨度筛选方法论:因子筛选、聚焦确认和在缩减空间内的局部细化。
2. 2. 提供了主机有界的经验证据,表明早期方法效应强烈依赖于预算,来自总批量和模型大小的主要惩罚在2到10分钟之间显著放松。
3. 3. 展示了该机制下的一个有界经验模式:D、A、B和C保留带种子的短预算效应,而E则没有;随机搜索达到竞争性当前最优而没有因子归因;并且以桥接为中心的锚点在小规模双主机12小时和24小时延续中具有最低样本均值,即使非桥接顺序对主机敏感。

## 3. 相关工作

自动研究风格的系统侧重于快速实验吞吐量和当前最优进展,而不是设计归因 [1, 2]。

经典超参数搜索建立了基线比较集。随机搜索是高维超参数空间中的强默认设置 [9],后来的关于函数ANOVA和随机森林替代模型的研究在搜索数据已经收集后估计哪些超参数重要 [10]。这些论文激发了我们对归因的重视,但它们没有研究在固定的短时间训练循环内的紧凑分阶段筛选。

预算超参数优化方法如Hyperband和BOHB在配置间自适应分配资源,以在有限预算下改进随时当前最优质量 [11, 12]。贝叶斯优化提供了另一个主要的以优化器为中心的比较线 [13]。群体训练和异步连续减半也是分布式超参数选择的自然自适应替代方案 [20, 21]。它们的目的是在任务集合上的高效优化器性能。我们的目标不同:在一个可运行的主机上,在提交更大的自动搜索预算之前,直接进行因子读取。

经典的实验设计提供了本文背后的筛选逻辑。部分析因设计在覆盖范围内权衡混叠,以便早期暴露大的主效应和受控的交互子集 [14, 15, 16]。响应面方法和中心复合风格后续是发现 promising 区域后的自然DOE扩展 [17, 18]。我们将筛选逻辑应用于微预训练,然后添加一个确认层和一个针对短预算训练工作流定制的更长跨度桥接包。

大规模扩展和优化器研究提供了重要的背景,但提出了不同的问题:跨规模趋势、计算最优训练规则、迁移规则和架构感知默认值 [3, 4, 19],在更长的训练跨度下的优化器行为 [5, 6, 7, 8],或学习率调度诊断如循环学习率和超收敛 [22, 23]。我们解决的差距更窄。我们询问是否一个分阶段设计筛选可以足够早地恢复有用的因子结构,以减少搜索空间,然后在相同的以主机为界的训练循环上开始更重的自动搜索。

## 4. 实验设置

### 4.1 平台与基线

主要研究运行在远程Windows主机上,配备一个NVIDIA A100 40GB GPU。测试框架是一个适配到该运行时路径的自动研究种子基线(SDPA回退并禁用torch.compile)。我们将其视为主要测量环境,而不是实现注脚。一个稍后的有界复制包在单独的Linux主机上运行,配备一个NVIDIA L40S GPU,以测试以桥接为中心的锚点结果在主机、操作系统和加速器变化后是否仍然可见。Linux包故意不是一对一的第二个A100复制;它是一个在可用独立Linux加速器上的有界可移植性检查,因此正向迁移支持方向稳健性而不是匹配硬件等价性。

原始筛选、贪心、桥接和D固定重跑块在早期固定种子测试框架下执行。对于后续确认层,我们添加了显式的RUN_SEED支持,并运行了针对性的90运行锚点子集(跨越2、5和10分钟)以及5和10分钟的完整16条件带种子筛选(总共160行)。因此,本文包含传统的固定种子块和后来的多种子包:种子变化在选定的锚点上跨越所有三个预算,并在5和10分钟的完整筛选设计上直接量化。

冻结运行器使用本地缓存的来自karpathy/climbmix-400b-shuffle的训练分片,固定shard_06542.parquet作为验证分片。分词使用基于rustbpe训练的、兼容tiktoken的BPE,词汇表大小8192。所有运行使用上下文长度2048,并在固定分片上的40 * 524288个验证令牌上报告最终的val_bpb。附录A记录了数据集URL、分片标识符、分词器工件、源代码快照和可复现性包内容。

模型家族由DEPTH和ASPECT_RATIO参数化,在一个Transformer风格的因果语言模型运行器上 [24]。对于给定的深度,名义宽度是DEPTH * ASPECT_RATIO,向上取整到HEAD_DIM=128的下一个倍数;注意力头数则为n_embd / 128,注意力窗口模式固定为SSSL,最后一层强制为全上下文。优化除实验因素外也是冻结的:矩阵值transformer权重使用Muon,嵌入、解嵌入和标量参数使用AdamW,AdamW的betas为(0.8, 0.95),预热比例固定为0.0,Windows回退路径使用设备批大小32,通过梯度累积实现配置的TOTAL_BATCH_SIZE。

主要结果是最终验证比特每字节(val_bpb,越低越好),通过在固定验证流上的每令牌交叉熵(nats)除以UTF-8目标字节并转换为比特每字节计算;特殊令牌从两个总和中排除。

### 4.2 因素

五个试点因素:

| 代码 | 因素 | 低 | 高 |
|------|------|----|----|
| A | DEPTH | 6 | 8 |
| B | ASPECT_RATIO | 48 | 72 |
| C | MATRIX_LR | 0.03 | 0.05 |
| D | TOTAL_BATCH_SIZE | 262144 | 524288 |
| E | WARMDOWN_RATIO | 0.25 | 0.50 |

### 4.3 筛选设计定义

试点筛选是一个常规的2^(5-1)部分析因设计,生成元为E = A * B * C * D,等价于定义关系I = A * B * C * D * E。这是一个分辨率V设计。因此主效应仅与四因子项混叠,而每个双因子项与一个互补的三因子项混叠。例如,A与BCDE混叠,B与ACDE混叠,A:B与CDE混叠。

我们严格将试点筛选用作主效应筛选设计。本文未声称初始的16次运行试点自身识别出了无混叠的双因子交互。交互讨论被移到了单独的D固定后续包中,其中设计和模型针对缩减因子集进行了定制。

### 4.4 统计方法

所有建模因子使用编码水平{-1, +1}。在此编码下,高减低效应为2 * beta,其中beta是对应线性模型中的拟合系数。

条件级均值和95%置信区间通过每个单元格内的重复运行,使用基于样本标准差和单元格内重复计数的Student-t区间报告。这些区间出现在带种子条件摘要、60分钟桥接包、Linux跨主机锚点包以及后来的12小时和24小时锚点延续中。

对于带种子的完整筛选重跑,我们在5和10分钟分别拟合预算特定的普通最小二乘模型:

val_bpb ~ A + B + C + D + E + seed_factor

我们报告高减低效应、双侧系数p值和基于每个拟合模型残差自由度的95% Wald区间。对于这些带种子完整筛选的主效应,我们还在每个预先声明的五效应族内、固定预算下应用Benjamini-Hochberg假发现率控制。在5和10分钟,D、A、B和C在BH-FDR下以q=0.05幸存,而E则没有。在本文中,对于带种子完整筛选,“保留非零估计”意味着报告的95%区间排除零,并且相应的主效应也通过了该预算内的BH校正。

作为对校正族的敏感性检查,将BH-FDR一次应用于合并的10个带种子完整筛选主效应检验(5因子 × 2预算),得到相同的定性保留集:D、A、B和C在两个预算下幸存,而E则没有。我们保留按预算呈现的方式,因为模型和决策问题是预算特定的,但结论不取决于该划分。

对于针对性的种子确认子集,我们拟合固定效应模型:

val_bpb ~ C(budget_factor) * C(condition_factor) + C(seed_factor)

并使用类型II ANOVA的eta_sq = SS_term / SS_total总结方差份额。这些eta_sq值是描述性效应大小总结,而不是来自随机效应模型的方差分量估计。

对于D固定后续,我们分别分析传统固定种子机制和后来的显式种子包。合并的后续模型为:

val_bpb ~ budget10 + A + B + C + E + A:B + A:C + B:C + A:E + B:E + C:E + budget10:(A + B + C + E + A:B + A:C + B:C + A:E + B:E + C:E)

仅使用来自同一机制下原始和重跑的D固定块。报告的区间是来自拟合协方差矩阵的基于模型的Wald区间,应作为固定种子机制内的重跑变异性总结,而不是独立种子推断。

由于该块缺乏独立的种子变化,其区间预计会低估一个广泛的独立种子交互研究所见的变异性。因此,我们仅使用D固定块来诊断传统机制内的交互结构,而不是作为多重性校正的决策层。

成对优势计数(100/100,16/16等)是跨所有左-右种子乘积的描述性跨种子获胜计数,分母为n_left * n_right。由于每个种子值参与多个配对,我们不将这些分母视为独立伯努利试验,也不附加p值或置信区间。

我们报告原始双侧p值以提高透明度。在带种子完整筛选的主效应族之外,这些p值是描述性诊断,而不是多重性校正的决策规则。

### 4.5 运行计数与可复现性

表1枚举了

相似文章

微调陷阱:评估负迁移与PEFT在Sub-1B数学推理中的作用

arXiv cs.LG

本文对Sub-1B模型在数学推理任务上进行了基准测试,揭示全量微调会主动损害300M参数以下模型的性能,而LoRA和DoRA等参数高效微调(PEFT)则提供了稳定性。作者建议对所有对齐的Sub-1B模型默认使用PEFT,并警告不要对小于500M参数的架构使用全量微调,以防止灾难性遗忘。

HRM-Text: 超越规模的高效预训练

arXiv cs.CL

HRM-Text 引入了一种分层循环模型,将计算解耦为慢速和快速层级,使得仅使用400亿个token和1500美元预算即可从头开始高效预训练,实现了与更大模型竞争的性能。

数据过滤的苦涩教训(1分钟阅读)

TLDR AI

本文研究了大模型预训练中的数据过滤,发现在高计算、数据稀缺的情况下,过滤可能并非必要,甚至可能有害;充分训练的大模型能从名义上的低质量数据中受益。