@rosinality: https://arxiv.org/abs/2606.29858 为什么会出现幂律缩放？单个token的损失遵循S形曲线，……

X AI KOLs Timeline 2026/06/30 08:40 论文

scaling-laws token-learning language-models power-law deep-learning training-dynamics

摘要

本文提出了一个token级别的框架，表明语言模型损失中的幂律缩放来源于单个token的S形学习曲线的聚合，并证明根据token学习时间重塑训练分布可以将验证损失降低11%。

https://t.co/bsAl3FGITv 为什么会出现幂律缩放？单个token的损失遵循S形曲线，这些不同学习时间的曲线聚合形成幂律曲线。又是Quanta hypothesis？ https://t.co/Iw2qn3m6QE

查看原文

查看缓存全文

缓存时间: 2026/06/30 09:39

平滑标度律隐藏了逐词分步学习

来源：https://arxiv.org/html/2606.29858 Pingjie Wang Dots Studio, Xiaohongshu Inc. 上海交通大学 [email protected] &Zechen Hu11footnotemark:1 Dots Studio, Xiaohongshu Inc. [email protected] &Peiru Yang11footnotemark:122footnotemark:2 Dots Studio, Xiaohongshu Inc. 清华大学 [email protected] &Fu Guo Dots Studio, Xiaohongshu Inc. [email protected] &Debing Zhang33footnotemark:3 Dots Studio, Xiaohongshu Inc. [email protected] 共同第一作者。工作完成于小红书股份有限公司 Dots Studio 实习期间。通讯作者。

摘要

语言模型的损失在模型和数据规模上呈现出异常规则的标度律，但整体损失为何会呈现幂律形式尚不清楚。现有的解释通常将此归因于自然语言中模式难度分布的重尾特征，然而，在大规模真实数据训练中，这种观点尚未在词元级别的粒度上得到直接验证。我们提出一个词元级框架，将标度律分解为单个上下文词元的学习事件。通过用 S 形曲线拟合词元损失轨迹，我们发现词元学习集中在局部的转换中，由此产生一个主导标度律形状的学习时间谱。在大型真实的多种语言语料库上，使用现代大语言模型架构进行超过一百次预训练实验（模型参数最高达 6B，训练词元最多达 300B），测量的学习时间谱能够定量地重建沿训练步数 T、数据规模 D 和模型规模 M 轴的验证损失导数。我们进一步证明这一信号是可操作的：根据词元可学习的时间点重塑训练分布，可以改变优化轨迹，实现验证损失减少 11% 的加速。这些结果提供了直接的实验证据，表明标度律主要受词元级学习时间的分布控制，而且该分布不仅可以解释标度行为，还能用于提升训练性能。

1 引言

参见图注图 1:A. 词元级损失轨迹。单个词元损失很好地由 S 形曲线拟合（上图），表明词元学习集中在特定学习时间的局部转换中，而不是均匀分布在训练过程中。按学习时间对齐词元后，它们的损失曲线收缩成高度相似的形状（下图）。B. 学习时间谱与经验损失导数。学习时间谱呈重尾分布且近似幂律；由测量得到的学习时间谱与共享学习脉冲重建的损失导数，在训练步数 T、数据规模 D 和模型规模 M 轴上与经验损失导数高度吻合。这些结果表明，全局损失的幂律形式主要受词元学习时间分布的支配，而非单个词元轨迹的支配。标度律表明，语言模型的损失和下游性能随着模型规模、数据和训练计算量的增加而遵循可预测的趋势[1,2]。在大规模训练实践中，它们直接指导了计算资源分配，并推动了训练策略的重大转变，尤其是向计算最优的参数-数据权衡方向[2,3]。然而，一个基本问题依然存在：语言模型的整体损失为何会遵循幂律？

为解释这一现象，近期研究将幂律标度归因于训练数据中固有的模式谱[4,5,6,7,8]。其直觉是，自然语言并非由难度均匀的特征组成；它呈现出长尾分布，涵盖从高频、低阶的语言规则到低频、高阶的复杂模式[9,10]。从这个角度看，训练过程是对该谱系的渐进覆盖，模型先掌握主导模式，随后捕获更罕见、更复杂的依赖关系[11,12,13]。在这种观点下，幂律标度植根于自然语言本身的内在统计结构。然而，尽管数据分布视角具有广泛吸引力，它尚未在足够细粒度的层次上分解，也未在工业规模模型的大规模真实数据训练中得到直接验证。

在本工作中，我们引入一个词元级视角来刻画词元级损失动态、数据分布结构与整体模型损失之间的关系，从而揭示幂律标度的起源。我们的主要贡献是在真实数据上提供直接的实证展示：全局损失的幂律形式从根本上源于词元级学习事件的统计分布。如图 1（A，上图）所示，单个词元损失并非均匀下降：它们在学习前后均保持平台期，这种模式可被 S 形拟合精确捕捉。当按学习时间（S 形中心）对词元分组时，所得的学习时间谱本身呈长尾且服从幂律：许多词元在早期被学会，在后期逐渐学会的词元越来越少。同时，图 1（A，下图）表明，在按学习时间对齐后，这些词元损失下降的局部形状高度相似。这两个观察为全局损失曲线提供了一个简单解释：宏观幂律标度行为应主要由学习时间谱（即在每个阶段有多少词元被学会）所支配。

我们在大规模真实世界语料库和现代大语言模型（LLM）架构（工业预训练流水线中使用）上验证了我们的理论。实验涵盖 290M 到 6B 参数的模型以及 1B 到 300B 词元的训练预算，共 110 多次运行，消耗 1,178 个 A100 GPU 天，沿三个轴标度：训练步数 T、数据规模 D 和模型规模 M。如图 1（B）所示，取导数后，每个词元的损失下降呈现为一个局部学习脉冲，指示该词元何时被学会。测量的学习时间谱结合共享脉冲，可以重建沿 T、D 和 M 轴的经验损失导数。先前的工作探索了通过宏观调整数据混合或调度来改进 LLM 预训练[14,15,16]，但这种干预通常基于启发式信号，而非精细理论。基于该分解，我们进一步利用学习时间信号重塑训练分布：对那些词元级学习事件集中在目标训练区间的样本赋予更高权重，而对在该区间贡献较小的样本降低权重。这种干预改变了后续优化轨迹，相比原始分布实现了验证损失降低 11% 的加速，表明学习时间谱不仅具有解释力，还可用于控制标度行为。我们的主要发现总结如下：

• 词元学习是非均匀的、跳跃式的。单个词元损失在局部转换前后保持平台期，这种模式可被 S 形拟合很好地捕捉。
• 学习脉冲形状在不同学习时间之间共享。每个词元损失的导数形成一个局部学习脉冲，并且按学习时间对齐后它们具有相似的形状。
• 标度律由学习时间谱主导。验证损失由学习时间分布驱动，即在每个轴位置有多少词元被学会。
• 标度行为可以被重塑。测量的学习时间可用于重塑训练分布，改变后续优化轨迹，从而加速验证损失降低。

2 相关工作

语言建模中的经验标度律。

在语言建模中，验证损失随模型大小、数据大小和训练计算量呈幂律标度[1]。这一经验规律已成为大规模训练中计算资源分配和参数-数据权衡的实用指南[2]。后续工作进一步研究了计算资源的最优分配以最大化模型性能，同时探索了特定条件下的标度行为[17,18,3]。除了关于模型大小 N 和数据大小 D 的最终收敛，连续训练轨迹本身也相对于训练步数 T 呈现出可预测的幂律衰减[1,19,20]。

标度律的数据分布解释。

现有标度律解释主要将其归因于数据分布的长尾结构，认为观察到的幂律反映了数据中可学习模式或潜在特征的长尾谱[4,6,7]。例如，Hutter [4] 表明 Zipf 数据分布会产生幂律学习曲线，其指数由 Zipf 指数设定。此外，多项工作通过玩具模型和合成数据实验支持了这一观点[5,21,8,22]。特别是 Michaud 等人[5] 使用基于 Zipf 分布稀疏奇偶性合成数据集的 MLP 玩具模型，证明了神经标度可以分解为不同任务的学习。Cagnetta 等人[8] 使用 PCFG 生成的层次组合数据研究幂律学习曲线，而 Barkeshli 等人[22] 使用随机图上的函数学习合成数据。总之，这些工作形成了一条广泛的解释线索，将标度律与数据分布属性（如压缩性、谱结构、层次结构和学习复杂性的分布）联系起来。然而，大多数现有研究仍停留在理论分析或粗粒度宏观统计层面，没有直接在词元级刻画标度行为。此外，许多分析是在玩具设定中进行的，在工业实践中大规模真实世界数据或现代模型架构上的验证有限。

词元级训练动态。

近期工作也通过跟踪训练过程中单个词元实例的学习情况，突出了词元级训练动态的重要性。几项研究提供了定性证据，表明词元级损失轨迹是高度异质的，不同词元表现出截然不同的学习模式[23,24,25,26,27,28]。例如，Lin 等人[26] 跟踪了大量词元在训练中的损失动态，发现词元损失并非均匀下降，而是分离为与有效学习和噪声相关的成分。Chang 等人[27] 进一步表明，单个词元实例的学习轨迹在不同训练运行间是可重现的，说明词元学习由顺序学习依赖关系塑造。他们还将这些动态与文本级统计特征联系起来。这些工作共同表明，学习在词元级是高度异质的。然而，它们主要提供了这些动态的定性观察，没有明确建模这种微观异质性如何聚合为损失层面的宏观标度律。相比之下，我们的工作直接将词元级训练动态与标度律联系起来，并在具有工业规模数据和架构的现代 LLM 上验证了这种联系。

3 分解标度律

3.1 从宏观幂律到词元级分解

标度律通常在聚合损失层面表达：沿轴 a，验证损失遵循规则的幂律衰减形式 L(a)=k a^{-α}+E[1,2]，其中 a 可以是训练步数 T、数据规模 D 和模型规模 M。这引出一个核心问题：是什么微观机制产生了聚合损失的幂律衰减？ 关于幂律驱动因素有三个自然假设：

• 假设 A：主要来自整体训练动态，如优化、调度或噪声。
• 假设 B：来自单个词元损失轨迹本身呈幂律下降。
• 假设 C：来自不同词元沿标度轴在不同点被学会。

为了区分这些可能性，我们将验证损失 L(a) 分解回词元级：L(a)=1/|I| ∑{i∈I} ℓ_i(a)。其中 I 是验证集中上下文词元实例的集合，ℓ_i(a) 是词元实例 i 沿 a 轴测量的损失。更直接地，损失导数跟踪学习发生的位置：L’(a):=-dL(a)/da = -1/|I| ∑{i∈I} dℓ_i(a)/da。因此，我们的核心任务是将 L’(a) 分解为词元级损失导数，并确定哪个因素真正主导其宏观形状。

@rosinality: https://arxiv.org/abs/2606.29858 为什么会出现幂律缩放？单个token的损失遵循S形曲线，……

平滑标度律隐藏了逐词分步学习

摘要

1 引言

2 相关工作

语言建模中的经验标度律。

标度律的数据分布解释。

词元级训练动态。

3 分解标度律

3.1 从宏观幂律到词元级分解

相似文章

神经语言模型的缩放规律

Compute Optimal Tokenization (2分钟阅读)

随机分词法提高模型鲁棒性

InfoLaw：基于质量加权混合数据与重复度的大型语言模型信息缩放定律

论大型语言模型缩放指数的微小性

提交意见反馈