@rosinality: https://arxiv.org/abs/2606.29858 为什么会出现幂律缩放?单个token的损失遵循S形曲线,……
摘要
本文提出了一个token级别的框架,表明语言模型损失中的幂律缩放来源于单个token的S形学习曲线的聚合,并证明根据token学习时间重塑训练分布可以将验证损失降低11%。
查看缓存全文
缓存时间: 2026/06/30 09:39
平滑标度律隐藏了逐词分步学习
来源:https://arxiv.org/html/2606.29858 Pingjie Wang Dots Studio, Xiaohongshu Inc. 上海交通大学 [email protected] &Zechen Hu11footnotemark:1 Dots Studio, Xiaohongshu Inc. [email protected] &Peiru Yang11footnotemark:122footnotemark:2 Dots Studio, Xiaohongshu Inc. 清华大学 [email protected] &Fu Guo Dots Studio, Xiaohongshu Inc. [email protected] &Debing Zhang33footnotemark:3 Dots Studio, Xiaohongshu Inc. [email protected] 共同第一作者。工作完成于小红书股份有限公司 Dots Studio 实习期间。通讯作者。
摘要
语言模型的损失在模型和数据规模上呈现出异常规则的标度律,但整体损失为何会呈现幂律形式尚不清楚。现有的解释通常将此归因于自然语言中模式难度分布的重尾特征,然而,在大规模真实数据训练中,这种观点尚未在词元级别的粒度上得到直接验证。我们提出一个词元级框架,将标度律分解为单个上下文词元的学习事件。通过用 S 形曲线拟合词元损失轨迹,我们发现词元学习集中在局部的转换中,由此产生一个主导标度律形状的学习时间谱。在大型真实的多种语言语料库上,使用现代大语言模型架构进行超过一百次预训练实验(模型参数最高达 6B,训练词元最多达 300B),测量的学习时间谱能够定量地重建沿训练步数 T、数据规模 D 和模型规模 M 轴的验证损失导数。我们进一步证明这一信号是可操作的:根据词元可学习的时间点重塑训练分布,可以改变优化轨迹,实现验证损失减少 11% 的加速。这些结果提供了直接的实验证据,表明标度律主要受词元级学习时间的分布控制,而且该分布不仅可以解释标度行为,还能用于提升训练性能。
1 引言
参见图注 图 1:A. 词元级损失轨迹。单个词元损失很好地由 S 形曲线拟合(上图),表明词元学习集中在特定学习时间的局部转换中,而不是均匀分布在训练过程中。按学习时间对齐词元后,它们的损失曲线收缩成高度相似的形状(下图)。B. 学习时间谱与经验损失导数。学习时间谱呈重尾分布且近似幂律;由测量得到的学习时间谱与共享学习脉冲重建的损失导数,在训练步数 T、数据规模 D 和模型规模 M 轴上与经验损失导数高度吻合。这些结果表明,全局损失的幂律形式主要受词元学习时间分布的支配,而非单个词元轨迹的支配。标度律表明,语言模型的损失和下游性能随着模型规模、数据和训练计算量的增加而遵循可预测的趋势[1,2]。在大规模训练实践中,它们直接指导了计算资源分配,并推动了训练策略的重大转变,尤其是向计算最优的参数-数据权衡方向[2,3]。然而,一个基本问题依然存在:语言模型的整体损失为何会遵循幂律?
为解释这一现象,近期研究将幂律标度归因于训练数据中固有的模式谱[4,5,6,7,8]。其直觉是,自然语言并非由难度均匀的特征组成;它呈现出长尾分布,涵盖从高频、低阶的语言规则到低频、高阶的复杂模式[9,10]。从这个角度看,训练过程是对该谱系的渐进覆盖,模型先掌握主导模式,随后捕获更罕见、更复杂的依赖关系[11,12,13]。在这种观点下,幂律标度植根于自然语言本身的内在统计结构。然而,尽管数据分布视角具有广泛吸引力,它尚未在足够细粒度的层次上分解,也未在工业规模模型的大规模真实数据训练中得到直接验证。
在本工作中,我们引入一个词元级视角来刻画词元级损失动态、数据分布结构与整体模型损失之间的关系,从而揭示幂律标度的起源。我们的主要贡献是在真实数据上提供直接的实证展示:全局损失的幂律形式从根本上源于词元级学习事件的统计分布。如图 1(A,上图)所示,单个词元损失并非均匀下降:它们在学习前后均保持平台期,这种模式可被 S 形拟合精确捕捉。当按学习时间(S 形中心)对词元分组时,所得的学习时间谱本身呈长尾且服从幂律:许多词元在早期被学会,在后期逐渐学会的词元越来越少。同时,图 1(A,下图)表明,在按学习时间对齐后,这些词元损失下降的局部形状高度相似。这两个观察为全局损失曲线提供了一个简单解释:宏观幂律标度行为应主要由学习时间谱(即在每个阶段有多少词元被学会)所支配。
我们在大规模真实世界语料库和现代大语言模型(LLM)架构(工业预训练流水线中使用)上验证了我们的理论。实验涵盖 290M 到 6B 参数的模型以及 1B 到 300B 词元的训练预算,共 110 多次运行,消耗 1,178 个 A100 GPU 天,沿三个轴标度:训练步数 T、数据规模 D 和模型规模 M。如图 1(B)所示,取导数后,每个词元的损失下降呈现为一个局部学习脉冲,指示该词元何时被学会。测量的学习时间谱结合共享脉冲,可以重建沿 T、D 和 M 轴的经验损失导数。先前的工作探索了通过宏观调整数据混合或调度来改进 LLM 预训练[14,15,16],但这种干预通常基于启发式信号,而非精细理论。基于该分解,我们进一步利用学习时间信号重塑训练分布:对那些词元级学习事件集中在目标训练区间的样本赋予更高权重,而对在该区间贡献较小的样本降低权重。这种干预改变了后续优化轨迹,相比原始分布实现了验证损失降低 11% 的加速,表明学习时间谱不仅具有解释力,还可用于控制标度行为。我们的主要发现总结如下:
- • 词元学习是非均匀的、跳跃式的。单个词元损失在局部转换前后保持平台期,这种模式可被 S 形拟合很好地捕捉。
- • 学习脉冲形状在不同学习时间之间共享。每个词元损失的导数形成一个局部学习脉冲,并且按学习时间对齐后它们具有相似的形状。
- • 标度律由学习时间谱主导。验证损失由学习时间分布驱动,即在每个轴位置有多少词元被学会。
- • 标度行为可以被重塑。测量的学习时间可用于重塑训练分布,改变后续优化轨迹,从而加速验证损失降低。
2 相关工作
语言建模中的经验标度律。
在语言建模中,验证损失随模型大小、数据大小和训练计算量呈幂律标度[1]。这一经验规律已成为大规模训练中计算资源分配和参数-数据权衡的实用指南[2]。后续工作进一步研究了计算资源的最优分配以最大化模型性能,同时探索了特定条件下的标度行为[17,18,3]。除了关于模型大小 N 和数据大小 D 的最终收敛,连续训练轨迹本身也相对于训练步数 T 呈现出可预测的幂律衰减[1,19,20]。
标度律的数据分布解释。
现有标度律解释主要将其归因于数据分布的长尾结构,认为观察到的幂律反映了数据中可学习模式或潜在特征的长尾谱[4,6,7]。例如,Hutter [4] 表明 Zipf 数据分布会产生幂律学习曲线,其指数由 Zipf 指数设定。此外,多项工作通过玩具模型和合成数据实验支持了这一观点[5,21,8,22]。特别是 Michaud 等人[5] 使用基于 Zipf 分布稀疏奇偶性合成数据集的 MLP 玩具模型,证明了神经标度可以分解为不同任务的学习。Cagnetta 等人[8] 使用 PCFG 生成的层次组合数据研究幂律学习曲线,而 Barkeshli 等人[22] 使用随机图上的函数学习合成数据。总之,这些工作形成了一条广泛的解释线索,将标度律与数据分布属性(如压缩性、谱结构、层次结构和学习复杂性的分布)联系起来。然而,大多数现有研究仍停留在理论分析或粗粒度宏观统计层面,没有直接在词元级刻画标度行为。此外,许多分析是在玩具设定中进行的,在工业实践中大规模真实世界数据或现代模型架构上的验证有限。
词元级训练动态。
近期工作也通过跟踪训练过程中单个词元实例的学习情况,突出了词元级训练动态的重要性。几项研究提供了定性证据,表明词元级损失轨迹是高度异质的,不同词元表现出截然不同的学习模式[23,24,25,26,27,28]。例如,Lin 等人[26] 跟踪了大量词元在训练中的损失动态,发现词元损失并非均匀下降,而是分离为与有效学习和噪声相关的成分。Chang 等人[27] 进一步表明,单个词元实例的学习轨迹在不同训练运行间是可重现的,说明词元学习由顺序学习依赖关系塑造。他们还将这些动态与文本级统计特征联系起来。这些工作共同表明,学习在词元级是高度异质的。然而,它们主要提供了这些动态的定性观察,没有明确建模这种微观异质性如何聚合为损失层面的宏观标度律。相比之下,我们的工作直接将词元级训练动态与标度律联系起来,并在具有工业规模数据和架构的现代 LLM 上验证了这种联系。
3 分解标度律
3.1 从宏观幂律到词元级分解
标度律通常在聚合损失层面表达:沿轴 a,验证损失遵循规则的幂律衰减形式 L(a)=k a^{-α}+E[1,2],其中 a 可以是训练步数 T、数据规模 D 和模型规模 M。这引出一个核心问题:是什么微观机制产生了聚合损失的幂律衰减? 关于幂律驱动因素有三个自然假设:
- • 假设 A:主要来自整体训练动态,如优化、调度或噪声。
- • 假设 B:来自单个词元损失轨迹本身呈幂律下降。
- • 假设 C:来自不同词元沿标度轴在不同点被学会。
为了区分这些可能性,我们将验证损失 L(a) 分解回词元级:L(a)=1/|I| ∑{i∈I} ℓ_i(a)。其中 I 是验证集中上下文词元实例的集合,ℓ_i(a) 是词元实例 i 沿 a 轴测量的损失。更直接地,损失导数跟踪学习发生的位置:L’(a):=-dL(a)/da = -1/|I| ∑{i∈I} dℓ_i(a)/da。因此,我们的核心任务是将 L’(a) 分解为词元级损失导数,并确定哪个因素真正主导其宏观形状。
相似文章
神经语言模型的缩放规律
基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。
Compute Optimal Tokenization (2分钟阅读)
本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。
随机分词法提高模型鲁棒性
本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。
InfoLaw:基于质量加权混合数据与重复度的大型语言模型信息缩放定律
InfoLaw 是一种数据感知型缩放框架,能够根据 token 消耗量、模型规模、数据混合权重及重复度预测模型损失,从而在不同算力预算下实现高效的数据配方选择。
论大型语言模型缩放指数的微小性
本文讨论了大型语言模型的小缩放指数,认为它们在能源资源方面指示了一种不可持续的状态。还探讨了'pedestal effect',并类比流体湍流以评论数据的平滑性。