小型实验，更便宜的决策：微预训练中分阶段提升的案例研究

arXiv cs.CL 2026/06/11 04:00 论文

摘要

本文研究了一种用于微预训练的分阶段提升协议，使用从分钟到小时递增的预算来筛选配置。研究发现，早期筛选是有用的但不稳定，并且分阶段方法可以保留长期参考，同时识别出未能通过继续阈值的替代方案。

arXiv:2606.11387v1 公告类型：新摘要：短的预训练运行可以降低实验成本，但它们也可能过度推广那些仅在小预算下表现良好的配置。我们研究了一种可审计的分阶段提升协议，用于在两个异构主机块（Windows A100 和 Linux L40S）上运行固定的微预训练。从十二个预先筛选的配置开始，我们使用2分钟、5分钟、10分钟、60分钟和12小时的分阶段预算，并在昂贵的继续运行之前使用固定的提升规则。早期筛选有意被视为不稳定的：5分钟和10分钟的排名对主机敏感，最终12小时排名最高的条件并不是在复制的10分钟关卡中平均最佳的条件。由于各个阶段的种子范围不同，这些变化是操作性的提升证据，而不是种子内的曲线。复制的60分钟关卡将分阶段因子筛选的桥接参考保留在提升集中，它在所有四个60分钟主机-种子单元中排名第一。在最终的12小时确认包中，桥接条件在两个种子上的所有四个主机-种子单元中排名第一；贪婪比较器不满足固定的0.010 val_bpb近似等价规则；更便宜的d8/ar48（深度8，宽高比48）哨兵不满足固定的0.020均值差距规则。执行的12小时分支花费了144个GPU小时，完整的分阶段协议记录了169.2个训练GPU小时（包括筛选阶段）。继续所有四个60分钟候选者将花费192个GPU小时，而继续所有九个复制的10分钟候选者将花费432个GPU小时。后者的数字是未运行继续的会计反事实，并不是跳过候选者无法超越参考的证据。结果是一个有界的成本分配发现，而不是声称全局最优、容量归一化优越性或优于自适应超参数优化方法。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:36

# 小型实验，更便宜的决策：微预训练分阶段提升的案例研究
来源：https://arxiv.org/html/2606.11387
\(2026\-06\-09\)

###### 摘要

短时预训练运行使得许多候选方案变得负担得起，但它们也可能过度推崇那些仅在微小预算下表现良好的配置。我们将这种权衡作为一个有界的案例研究，针对一个固定的单GPU微预训练运行器，研究其分阶段提升机制。这里的“微预训练”指的是一个单节点、单GPU的实验运行器，采用分阶段的墙钟预算，并非意味着每次运行都在一分钟以内。从先前公开筛选研究中得出的十二个候选配置开始，我们在两个异构主机模块（Windows A100路径和Linux L40S路径）上运行了2分钟、5分钟、10分钟、60分钟和12小时的预算。

早期筛选是有用的但不稳定：在5分钟时，最佳的Windows和Linux条件不同，而最终的12小时排名第一的条件并非在重复的10分钟门控中的平均最佳条件。由于不同阶段的种子范围不同，这些变化是操作性的提升证据，而非种子内的学习曲线估计。随后，一个重复的60分钟门控保留了从《预算受限微预训练的分阶段因子筛选》[1]中衍生的桥梁参考条件，它在所有四个主机-种子单元中排名第一。在最终的12小时确认包中，桥梁参考条件在种子46和47的所有四个主机-种子单元中排名第一；贪婪比较器排名第二但未满足冻结的0.010 val_bpb的近似等价规则；而d8/ar48（深度-8，宽高比-48）更便宜的哨兵条件排名第三，但未满足冻结的0.020 val_bpb的平均差距更小架构规则。

执行的12小时分支消耗了144 GPU小时，完整的阶段协议记录了169.2个训练GPU小时（包括筛选阶段）。将所有四个60分钟候选者继续训练到相同的确认阶段将消耗192 GPU小时；将所有九个重复的10分钟候选者继续训练将消耗432 GPU小时。后两个数字是未运行延续的会计反事实，并非暗示被跳过的候选者不可能超过参考条件。这是一个有界的成本分配发现，而非表明该协议优于自适应超参数优化或最大模型的优势是容量归一化的证据。

## 1. 引言

小型预训练实验通常用作在投入更重的训练预算之前的过滤器。操作原因很简单：如果短时间运行可以拒绝一个糟糕的方案，那么节省的加速器时间可以用于其他地方。科学风险也很简单：短时间运行可能会对配置进行排序，但这种排序可能无法在更长时间、另一个种子或另一台主机上维持。

在本文中，微预训练是指一个单节点、单GPU的实验运行器，用于做出小预算的预训练决策。这并不意味着所有阶段在墙钟时间上都很小：该协议有意识地从小规模分钟级筛选升级到12小时的确认运行。

本文将此权衡作为一个提升问题来研究。我们不是在问短时间运行能否证明一个配置全局最优。我们问的是：一个小的、可审计的、双工作者的提升计划能否在识别出未满足冻结继续阈值的合理替代方案的同时，将观察到的长期参考条件保留在候选集中。

本研究始于从先前文献[1]中报告的分阶段因子的微预训练筛选活动中衍生出的十二个条件矩阵。桥梁参考是从先前的筛选活动中保留的最佳参考条件；本文测试的是分阶段提升是否保留并挑战它，而非从头开始通过简单搜索发现它。候选条件包括该桥梁参考、一个贪婪比较器、一个高惩罚对照、若干更小或更便宜的变体，以及桥梁参考区域附近的局部变体。然后，我们在两个异构主机模块（Windows A100主机和Linux L40S主机）上运行多保真度调度。早期预算设计得很便宜。后期预算仅在书面预分析门控之后才投入。

在操作上，一个门控观察候选集S_t、固定的墙钟预算b_t、阻塞的主机测量值以及预先声明的阈值，然后在下一个预算花费之前选择一个更小的集合S_{t+1}。研究目标不仅是最终得分，还包括门控序列是否在减少昂贵延续的同时避免过度剪枝。

最终结果比一般的优化器宣称要窄，但对于受约束的实验是有用的。早期排名足够不稳定，以至于在5分钟或10分钟时进行硬剪枝是有风险的。然而，通过一个重复的60分钟门控保留参考条件和主机敏感候选者，可以将最终的12小时排名第一的条件保留在提升集中。由于不同阶段的种子范围不同，这是在操作性提升计划下的保留证据，而非预算持续时间本身改变了排序的因果证据。然后，12小时包关闭了本研究中更便宜模型的支线：桥梁参考在所有四个主机-种子单元中排名第一，而更便宜的哨兵和贪婪比较器未满足冻结阈值。在此结果之后，没有启动24小时延续。

因此，主要贡献是方法论的纪律性，而非一种新的架构。如果保守使用，分阶段提升规则可以减少长期花费：广泛的廉价筛选、重复的中间门控、冻结阈值，以及在合理分支失败时明确停止。

## 2. 贡献

本文做出四个贡献。

1. 它记录了一个针对此固定微预训练运行器的完全分阶段提升协议：冒烟测试、廉价筛选、重复的廉价筛选、重复的60分钟确认，以及双种子12小时确认，具有冻结的门控和可审计的预算核算。
2. 它表明早期筛选不足以支持激进剪枝：5分钟和10分钟的读取对主机敏感，最终12小时排名第一的条件并非10分钟时的平均最佳条件。由于后期阶段使用不同的种子范围，这是操作性的提升证据，而非种子内的持续时间效应。
3. 它表明一个保守的提升规则仍然可以将从《预算受限微预训练的分阶段因子筛选》[1]中推导出的长期参考保留在提升集中：桥梁参考通过了每个门控，并在此固定墙钟协议下的所有四个12小时主机-种子单元中排名第一。这种比较是容量混淆的，因为桥梁参考也是最终的模型中最大的条件。
4. 它为停止决策提供了预算核算：执行的12小时确认使用了144个GPU小时，而将所有四个60分钟候选者继续训练将消耗192个GPU小时，将所有九个10分钟候选者继续训练将消耗432个GPU小时。这些比较预算是会计反事实，而非跳过延续的观察结果。

## 3. 相关工作

有限预算下的超参数优化是最接近的方法论背景。Hyperband将超参数优化表述为自适应资源分配，并在随机采样的配置上提前停止[2]。ASHA将逐次减半风格的提升扩展到大规模并行环境[3]。BOHB将基于模型的搜索与赌博机风格的预算分配相结合[4]。这些方法都启发了“并非每个配置都应获得最大预算”的思想。本文并未声称优于这些方法。相反，它研究了一个针对固定运行器、两个工作者和狭窄候选矩阵的、小型且手动可审计的提升协议。

区别在于操作性。Hyperband、ASHA、BOHB和贝叶斯优化是用于更广泛优化问题的自动搜索过程。本文研究的协议是一个实践者在回路中的决策记录：它冻结门控，保留参考和对照值，并解释为什么特定延续被停止。它是对自动HPO的补充，而非替代。

报告实践也至关重要。Dodge等人认为仅靠最终测试分数是不够的，并建议展示作为计算预算函数的验证性能[5]。我们的图表遵循这一原则：本文报告阶段轨迹、主机-种子单元和预算反事实，而不仅仅是最终的12小时胜者。

小规模预训练决策日益重要，因为完整的预训练比较成本高昂。DataDecide研究小实验在多大程度上能预测跨多种语料库和规模的更大预训练选择[6]。优化器比较工作也强调，排名可能随着训练规模、调优努力和评估时机而翻转[7]。这些警告在此处直接相关：我们将早期筛选视为候选生成机制，而非长期质量的证明。

## 4. 实验设置

### 4.1 运行器和主机

所有实验使用一个固定的微预训练运行器，源自[1]中报告的先前筛选分支，并为分阶段提升研究进行了仪器化。运行器报告最终验证每字节比特数(val_bpb，越低越好)、参数数量、峰值VRAM、总令牌数、训练秒数和最终检查点路径。我们使用val_bpb而非困惑度，因为它对于固定字节/令牌流是一种直接的压缩风格验证损失，并且在处理不同令牌数的墙钟受限运行中保持可比性。

val_bpb = - (1 / (N log 2)) * sum_{i=1}^N log p(x_i | x_{<i})

其中log表示自然对数，N是在固定分词器流下评估的验证字节/令牌数，较低的值表示对验证流的更好压缩。主要实验路径使用两个异构主机模块：

| 主机模块 | 运行路径 | 加速器 |
|----------|----------|--------|
| Windows | Windows运行器路径 | NVIDIA A100 40GB |
| Linux | Linux运行器路径 | NVIDIA L40S |

这些主机不被视为相同的副本。它们是阻塞观测，用于测试在改变运行路径和加速器后，相同的提升决策是否仍保持方向性可见。我们使用异构硬件来测试提升决策是否能在这个环境中可用的最保守的主机变更下存活，同时承认A100-L40S的差异混合了架构、操作系统、驱动栈和文件系统路径。第5.4节中报告的描述性标准差应在此复合阻塞注意事项下解读。

固定的运行器使用本地缓存的训练分片，来自karpathy/climbmix-400b-shuffle，shard_06542.parquet固定为验证分片。分词使用基于rustbpe训练、兼容tiktoken的BPE，词汇量为8192。所有运行使用上下文长度2048，并从固定的分片报告最终val_bpb，基于40 * 524288个验证令牌。附录A记录了数据集URL、分片标识符、分词器工件、源代码快照和可重复性包内容。

运行器通过Python和PyTorch种子调用固定运行种子，并在每个摘要中记录该种子。它不声称在GPU架构之间按比特确定性重放：未启用确定性PyTorch算法，使用torch.set_float32_matmul_precision("high")，并且CUDA/cuDNN内核在A100和L40S路径上可能不同。因此，种子设计支持重复的操作性读取，而非精确的二进制重放。

### 4.2 候选矩阵

起始矩阵包含十二个条件。先前的《预算受限微预训练的分阶段因子筛选》研究[1]筛选了深度、宽高比和学习率设置，并产生了桥梁参考、贪婪比较器和高惩罚对照。其余条件填充了该区域周围的局部变体和更小模型单元，以测试分阶段提升是保留还是拒绝合理的替代方案。这些角色是预先声明的，以便提升可以保留参考和对照价值，而不仅仅是选择当前短期预算的最佳行。短标签用于后续的紧凑结果表。确切的条件标识符是内部可重复性ID，并在辅助矩阵中携带。

| 标签 | 条件ID | 角色 | 深度 | 宽高比 | 矩阵lr | 批次大小 |
|------|--------|------|------|--------|--------|----------|
| bridge | p06_bridge_best | 参考最佳 | 8 | 64 | 0.05 | 262144 |
| greedy | p06_greedy_winnersearch | 搜索比较器 | 6 | 72 | 0.03 | 262144 |
| control | p06_control | 高惩罚对照 | 8 | 48 | 0.035 | 524288 |
| c03 | p06_best_c03 | 小参考 | 6 | 48 | 0.05 | 262144 |
| c01 | p06_best_c01 | 小参考 | 6 | 48 | 0.03 | 262144 |
| bridge-d6 | p06_bridge_d6_ar64 | 浅桥梁 | 6 | 64 | 0.05 | 262144 |
| d4/ar48 | p06_small_d4_ar48_lr05 | 激进小模型 | 4 | 48 | 0.05 | 262144 |
| d4/ar64 | p06_small_d4_ar64_lr05 | 居中 | 4 | 64 | 0.05 | 262144 |
| d4/ar72 | p06_small_d4_ar72_lr03 | 浅宽 | 4 | 72 | 0.03 | 262144 |
| d6/ar64 | p06_d6_ar64_lr03 | 局部变体 | 6 | 64 | 0.03 | 262144 |
| d8/ar48 | p06_d8_ar48_lr05 | 局部变体 | 8 | 48 | 0.05 | 262144 |
| d4/highbatch | p06_small_highbatch_d4_ar64 | 廉价高批量对照 | 4 | 64 | 0.05 | 524288 |

### 4.3 提升计划

实验使用分阶段的墙钟预算。每个门控在下一个昂贵阶段之前编写。

| 阶段 | 候选者数量 | 种子 | 主机 | 每个条件的预算 | 预算GPU小时 | 目的 |
|------|------------|------|------|----------------|--------------|------|
| Stage 0 | 3 | 1 | 2 | 2分钟 | 0.2 | 仪器化冒烟测试 |
| Stage 1A | 12 | 1 | 2 | 5分钟 | 2.0 | 廉价早期筛选 |
| Stage 1B | 12 | 1 | 2 | 10分钟 | 4.0 | 首次较长的廉价筛选 |
| Stage 1C | 9 | 1 | 2 | 10分钟 | 3.0 | 种子-43前9名复制 |
| Stage 2A | 4 | 1 | 2 | 60分钟 | 8.0 | 种子-44确认 |
| Stage 2B | 4 | 1 | 2 | 60分钟 | 8.0 | 种子-45确认 |
| Stage 3A | 3 | 1 | 2 | 12小时 | 72.0 | 种子-46长期测试 |
| Stage 3B | 3 | 1 | 2 | 12小时 | 72.0 | 种子-47确认 |

因此，最终的12小时分支消耗了144个GPU小时。所有远程结果摘要中记录的观察到的训练时间为169.2个GPU小时，包括早期筛选和确认阶段。未四舍五入的内部会计值为169.214，根据每次运行的训练秒数计算。这些是训练时间会计数字；它们不包括排队、启动开销或人工监督时间。

### 4.4 冻结决策规则

早期廉价筛选被保守使用。在5分钟和10分钟的种子-42筛选之后，主机排名一致性仍然较低，因此下一步不是跳到60分钟。相反，我们在10分钟预算下使用种子43重复了前9名子集。

在重复的10分钟筛选之后，四个条件被提升到60分钟：

| 条件 | 理由 |
|------|------|
| d8/ar48 | 重复10分钟下最佳稳健的绝对表现者 |
| d6/ar64 | 短期预算容忍度内的便宜哨兵 |
| bridge | 预先声明的桥梁参考 |
| greedy | 预先声明的贪婪比较器 |

在重复的60分钟门控之后，三个条件被提升到12小时：

| 条件 | 理由 |
|------|------|
| bridge | 在每个60分钟主机-种子单元中排名第一 |
| greedy | 贪婪比较器且在Windows上接近最佳 |
| d8/ar48 | 最佳更便宜架构哨兵 |

冻结的第3B阶段规则是：

| 条件 | 通过标准 |
|------|----------|
| bridge | 在两个12小时种子和两个主机上保持最佳 |
| greedy | 在所有12小时主机-种子单元中val_bpb与桥梁相差0.010以内 |
| d8/ar48 | 在平均12小时差距中val_bpb与桥梁相差0.020以内 |

聚合不对称性是有意为之，但应视为政策选择而非统计发现。贪婪比较器是同类别比较器，因此规则要求在每一个主机-种子单元中接近等价。d8/ar48条件是更便宜架构的哨兵，因此规则允许更宽的平均差距容忍度，以询问一个较小的分支平均而言是否“足够好”。0.010和0.020的val_bpb阈值是针对此固定运行器的预先声明政策带，并用作停止规则，而非一般显著性阈值；敏感性表格让读者评估决策对附近替代方案的稳健性。

公共辅助包i

小型实验，更便宜的决策：微预训练中分阶段提升的案例研究

相似文章

预算受限微预训练的分阶段因子筛选

早期数据暴露提高后续微调的鲁棒性

LLM持续预训练中最佳超参数的可预测缩放规律

HRM-Text: 超越规模的高效预训练

从演示到奖励：VLM奖励模型的测试时提示优化

提交意见反馈