语言模型中Grokking的预训练类比:追踪延迟的语法泛化
摘要
本文提出了一种基于暴露的框架,用于研究LLM预训练过程中类似Grokking的延迟泛化现象,使用了BLiMP最小对立对和关键短语。作者观察到五种语法现象均出现延迟泛化,并分析了内部变化,如概念向量的可预测性和注意力头的集中。
arXiv:2606.00230v1 Announce Type: new
摘要:Grokking是指神经网络在拟合训练数据后很久才泛化的现象,这一现象已在多轮次监督学习场景中得到研究。而LLM预训练涉及在无标签语料库上进行下一词元预测,数据重复有限,且没有明确的训练/验证划分。为此,我们提出了一种基于暴露的框架,使得在LLM预训练过程中研究类似Grokking的动态成为可能。我们以BLiMP最小对立对作为评估基础,它们提供了受控的语法对比。对于每个BLiMP最小对立对,我们识别出一个关键短语——即捕捉语法对比和现象相关上下文的最小连续片段。关键短语出现在预训练窗口中的样本被分配到代理训练集;其余样本被分配到代理验证集。在五种语法现象中,我们观察到了延迟泛化。对泛化前后的预训练检查点进行分析表明,语法概念向量在泛化后更能预测语法可接受性,并占据更高维的子空间。我们还发现,从关键词元到相关上下文词元的注意力集中在少数注意力头上。
查看缓存全文
缓存时间: 2026/06/02 15:40
# 语言模型中Grokking的预训练类比:追踪延迟的语法泛化
来源:https://arxiv.org/html/2606.00230
Sherin Muckatira, Namrata Shivagunde, Vijeta Deshpande, Anna Rumshisky
马萨诸塞大学洛厄尔分校
sherinbojappa\_muckatira@student\.uml\.edu
###### 摘要
Grokking,即神经网络在拟合训练数据很久之后才泛化的现象,已在多轮次的有监督环境中被研究。而LLM预训练则是在未标注语料上进行下一词预测,数据重复有限,且没有明确的训练/验证集划分。为了解决这个问题,我们提出了一种基于暴露的框架,使得在LLM预训练期间研究类grokking动态成为可能。我们将评估建立在BLiMP最小对的基础上,这些最小对提供了受控的语法对比。对于每个BLiMP最小对,我们识别出一个关键短语,即能捕获语法对比及现象相关上下文的最小连续跨度。其关键短语出现在预训练窗口中的样本被分配到代理训练集;其余样本被分配到代理验证集。在五个语法现象中,我们观察到了延迟泛化。分析泛化前后的预训练检查点表明:语法概念向量在泛化后更能预测语法可接受性,并占据更高维的子空间。我们还发现,从关键令牌到相关上下文令牌的注意力集中在少数几个注意力头上。
**语言模型中Grokking的预训练类比:追踪延迟的语法泛化**
Sherin Muckatira, Namrata Shivagunde, Vijeta Deshpande, Anna Rumshisky
马萨诸塞大学洛厄尔分校
sherinbojappa\_muckatira@student\.uml\.edu
参见图注
图1:分析的五种BLiMP现象的延迟泛化曲线和累积C4暴露量。蓝色和红色线分别表示代理训练集(已暴露)和代理验证集(未暴露)在三个随机种子上的平均准确率;x轴表示训练步数;阴影带表示±1\\pm 1标准误差。橙色条形图表示截至每个检查点在C4预训练流中遇到的唯一关键短语的累积数量。各现象中,代理训练集准确率在代理验证集准确率之前上升。
## 1 引言
Grokking是神经网络中的一种现象,模型从拟合训练样本过渡到泛化到保留样本。在经典设定中,模型在固定有监督训练集上训练多个轮次,并在来自相同任务分布的保留验证集上评估(Power et al., 2022 (https://arxiv.org/html/2606.00230#bib.bib33))。这种延迟过渡为分析与泛化开始相关的内部变化提供了一个明确的行为边界。
然而,经典 grokking 是针对特定任务定义的:模型在任务样本的子集上训练,延迟泛化在来自同一任务的保留样本上测量。这个设定不能直接移植到语言模型预训练上。在预训练期间,模型针对大量未标注语料进行下一词预测优化,而不是直接在标注的下游评估样本上训练。因此,下游样本没有自然的有监督训练/验证集划分。为了将经典 grokking 公式引入预训练设定,我们构建了一个基于暴露的代理划分,应用于下游评估数据集。
我们通过构建一个基于暴露的代理划分来解决这个问题,用于研究语言模型预训练期间的延迟泛化。我们以语法作为测试案例,因为语法依赖关系是结构化的、可测量的,并且可以使用受控的最小对数据集进行测试。具体来说,我们使用BLiMP(Warstadt et al., 2020 (https://arxiv.org/html/2606.00230#bib.bib8)),其中每个样本包含一个可接受的句子和一个针对特定语法现象的极小差异不可接受句子。对于每个最小对,我们提取一个关键短语:一个连续的跨度,包含语法差异以及评估语法依赖所需的上下文。然后,我们将样本分配到代理训练集(如果关键短语在分析过的预训练窗口中的C4(Raffel et al., 2020 (https://arxiv.org/html/2606.00230#bib.bib31))令牌中逐字出现)或代理验证集(否则)。
这个划分并不暗示模型从未见过相关的语法规则。它只区分了具有逐字关键短语暴露的样本和不具有这种暴露的样本。这给出了经典 grokking 设定在预训练中的类似物:模型可能首先在具有直接短语暴露的样本上表现良好,然后才在没有直接暴露的样本上改进。
使用这个框架,我们研究了35M、60M和130M参数的LLaMA风格语言模型在五个BLiMP语法现象上的早期预训练检查点。我们首先测量具有逐字关键短语暴露的样本是否在没有这种暴露的样本之前达到高准确率,并通过匹配的随机划分(保持划分大小)来检验这一效应。然后,我们分析延迟泛化转换前后的语法特定对比表示和注意力模式,以探究行为滞后是否伴随着模型对语法概念的表示和注意力模式的变化。我们发现,代理训练集准确率始终在代理验证集准确率之前达到高准确率,表明存在延迟泛化。检查点级别的分析进一步表明,这种转换伴随着语法特定概念向量和上下文注意模式的变化。
我们的贡献如下:
1. 1.我们引入了一个基于暴露的框架,用于研究语言模型预训练期间类似 grokking 的延迟泛化。
2. 2.我们证明了在五个语法现象中,具有逐字关键短语暴露的样本在没有这种暴露的样本之前达到高准确率。
3. 3.我们通过匹配的随机划分置换测试验证了这一效应,表明观察到的滞后不能仅用划分大小来解释。
4. 4.我们表明这种转换伴随着语法特定概念向量和上下文注意模式的变化。
## 2 相关工作
#### Grokking 和延迟泛化。
Grokking 被引入为从记忆到泛化的延迟过渡,其中模型首先达到高训练准确率而验证准确率保持较低,之后才泛化到保留样本(Power et al., 2022 (https://arxiv.org/html/2606.00230#bib.bib33))。大多数先前工作在具有明确训练/验证集划分的受控设定中研究这种行为,例如模算术和其他算法任务(Gromov, 2023 (https://arxiv.org/html/2606.00230#bib.bib14); Nanda et al., 2023 (https://arxiv.org/html/2606.00230#bib.bib15))。机制分析表明,行为转换之前可能伴随着电路或表示的内部变化(Nanda et al., 2023 (https://arxiv.org/html/2606.00230#bib.bib15))。后续工作将 grokking 扩展到涉及层次结构的更丰富的类语言合成任务(Murty et al., 2023 (https://arxiv.org/html/2606.00230#bib.bib16))。我们研究的是预训练设定,模型在自然语言上进行下一词预测训练,而不是直接在有监督的下游任务上训练。
#### 语言模型预训练期间的类 grokking 动态。
最近的工作开始探究语言模型预训练期间是否会发生类 grokking 动态。Li et al. (2026b (https://arxiv.org/html/2606.00230#bib.bib9)) 分析了大型混合专家模型中的 grokking。然而,他们在应用 LoRA 微调后在下游任务上进行评估,使得观察到的动态是否仅仅由预训练引起变得不清楚。他们还仅通过训练损失定义 grokking,没有验证集划分。Lv et al. (2025 (https://arxiv.org/html/2606.00230#bib.bib26)) 认为语言模型以类 grokking 的方式发展复制能力,归纳头在预训练期间出现。这些工作将 grokking 扩展到合成任务之外,但它们没有直接将经典的训练/验证集公式应用到下游评估样本。我们通过构建一个基于暴露的代理划分来弥补这一差距:下游评估样本根据其关键短语是否在预训练语料中逐字出现来划分。这使我们能够测量性能是否首先在具有直接语料暴露的样本上改善,而仅在之后在没有这种暴露的样本上改善。
#### 语言泛化和表示几何。
BLiMP 提供了受控的最小对用于评估语言模型中的语法知识。先前使用 BLiMP 的工作表明,不同的语法现象在不同的检查点上遵循不同的学习轨迹(Bunzeck and Zarrieß, 2024 (https://arxiv.org/html/2606.00230#bib.bib25))。我们出于不同目的使用 BLiMP:测试语法最小对是否在预训练期间表现出延迟泛化。
#### 学习过程中的表示几何。
先前工作表明泛化可能伴随着模型表示几何的变化。对 transformer 训练动态的研究发现,隐藏状态几何在训练过程中发生变化,包括各向异性、内在维度和整体表示复杂性的变化(Razzhigaev et al., 2024 (https://arxiv.org/html/2606.00230#bib.bib20); Li et al., 2026a (https://arxiv.org/html/2606.00230#bib.bib19))。我们没有测量所有令牌上隐藏状态表示的几何,而是聚焦于语法特定的概念向量。这受到将概念或行为视为激活空间中方向的工作的启发(Park et al., 2024 (https://arxiv.org/html/2606.00230#bib.bib23); Rimsky et al., 2024 (https://arxiv.org/html/2606.00230#bib.bib30))。在使用概念向量时,我们的目的不是操控模型或建立线性表示的通用理论。相反,我们将语法特定的概念方向作为一种诊断工具,用于追踪语法概念的可分离性和维度结构在预训练检查点之间的变化。
## 3 方法
在本节中,我们描述预训练设置、用于测量延迟泛化的基于暴露的代理划分,以及检查点级别的表示和注意力分析。
### 3.1 预训练和评估设置
我们使用由 Zhao et al. (2024 (https://arxiv.org/html/2606.00230#bib.bib17)) 发布的代码库,训练 LLaMA 风格的仅解码器语言模型(Touvron et al., 2023 (https://arxiv.org/html/2606.00230#bib.bib34)),参数规模分别为 35M、60M 和 130M。模型在英文 C4(Raffel et al., 2020 (https://arxiv.org/html/2606.00230#bib.bib31))上训练,上下文长度为 256,批量大小为 512,共 2000 步,每 100 步保存检查点。模型训练约 2 亿非填充令牌。我们使用余弦学习率调度。35M 和 60M 模型使用学习率 10^{-3},130M 模型使用学习率 5×10^{-4}。60M 模型使用三个独立的随机种子进行训练,用于主要的检查点级别分析;35M 和 130M 模型用于规模鲁棒性检查。
在每个检查点上,我们使用 EleutherAI 评估工具(Gao et al., 2024 (https://arxiv.org/html/2606.00230#bib.bib18))在 BLiMP 上进行评估。每个 BLiMP 样本是一个最小对,包含一个可接受句子和一个不可接受句子。如果模型对可接受句子分配更高的概率,则判断正确,因此随机准确率为 50%。我们聚焦于前 2000 个预训练步,因为我们不想分析完全饱和的状态,而是要比较代理验证集准确率开始提高之前和之后的模型行为。我们在一个 NVIDIA RTX ADA 6000 48 GB GPU 上训练模型。
### 3.2 基于暴露的代理划分
对于每个 BLiMP 最小对,我们提取一个*关键短语*:一个连续的跨度,包含可接受和不可接受句子之间不同的令牌,以及评估语法依赖所需的上下文。我们从可接受和不可接受句子中提取关键短语,小写化,并去除尾部标点。特定数据集的提取规则和示例在附录 A.1 (https://arxiv.org/html/2606.00230#A1.SS1) 中提供。
我们通过关键短语与分析的预训练窗口中看到的 C4 令牌的精确逐字重叠来定义暴露。如果 BLiMP 样本的可接受或不可接受关键短语在该窗口内逐字出现在 C4 中,则该样本被分配到代理训练集(已暴露);否则分配到代理验证集(未暴露)。这种基于暴露的划分过程仅捕获逐字关键短语暴露;它并不暗示模型从未见过底层的语法规则或相关结构。
### 3.3 延迟泛化测量
令 A_{train}(t) 和 A_{val}(t) 分别表示在检查点 t 时代理训练集和代理验证集的准确率,令 τ 为准确率阈值。我们定义
t_{train}(τ) = min{t : A_{train}(t) ≥ τ},
t_{val}(τ) = min{t : A_{val}(t) ≥ τ}。
延迟泛化滞后为
Δt(τ) = t_{val}(τ) - t_{train}(τ)。
我们使用 τ=80% 作为主要阈值,因为 BLiMP 是二分类,80% 代表了显著高于随机水平的性能,同时仍在分析的检查点范围内可以达到。由于检查点每 100 步保存一次,转换时间是检查点级别的估计。对于表示和注意力分析,我们设置 t_{before}=100 和 t_{after}=t_{val}(80%)。对于 60M 模型,我们为每个种子单独计算 t_{after},并使用中位数进行可解释性分析。附录表 5 (https://arxiv.org/html/2606.00230#A2.T5) 报告了不同阈值下的划分大小和转换检查点。
### 3.4 数据集选择
研究延迟泛化需要一个“金发姑娘”状态:数据集既不能太容易以至于在前几个检查点就饱和,也不能太难以至于代理验证集准确率永远达不到有意义的阈值。因此,我们选择那些在我们 2000 步检查点窗口内可以测量到转换的 BLiMP 数据集。
我们应用四个过滤阶段。我们排除以下数据集:泛化太早(步骤 100–300 的平均准确率 ≥ 70%)或从未达到高准确率(峰值准确率 < 80%);目标语法对比和上下文依赖无法用子句关键短语捕获的;构建训练/验证集后代理训练集样本少于 100 的;以及代理验证集从未达到 80% 的。这些标准选择了那些可以测量延迟泛化的数据集,但它们并不要求代理训练集准确率在代理验证相似文章
LM预训练的泛化动态(阅读时间17分钟)
本文揭示,在预训练过程中,语言模型会频繁且突然地在模式匹配与泛化行为之间切换,这种现象被称为“模式跳跃”(mode-hopping),并提出了一个用于研究该现象的小型评估套件。
TD-Grokking:通过训练时分解从零奖励问题中学习
提出TD-Grokking,一种训练时分解框架,递归地将棘手的零奖励问题分解为可验证的子问题,使大语言模型能够从失败轨迹中学习。在数学和医学推理任务上优于普通GRPO及基线方法。
大语言模型中的语言习得装置
本文提出了一种受LAD启发的预预训练方法,使用一种名为MP-Struct的形式语言,该语言编码了类自然语言结构。研究表明,这种方法提高了token效率,并赋予了模型类似人类的对结构不合理语言的抵抗力,挑战了先前关于有效预预训练语言的假设。
使用探针目标归因定位大型语言模型中的提示模糊性
介绍了PRIG,一种梯度归因方法,通过训练线性探针区分清晰提示和模糊提示,并将探针得分归因于残差流中的标记表示,从而定位大型语言模型中的提示模糊性,在合成和人工编写的基准测试上取得了强劲性能。
GiLT:利用依存图增强Transformer语言模型
论文提出了GiLT(Graph-Infused Layers Transformer Language Model),它通过在token预测过程中增量构建的依存图特征来调整注意力权重,从而改善句法泛化能力,在保持竞争性困惑度的同时超越基线模型。