LM预训练的泛化动态(阅读时间17分钟)
摘要
本文揭示,在预训练过程中,语言模型会频繁且突然地在模式匹配与泛化行为之间切换,这种现象被称为“模式跳跃”(mode-hopping),并提出了一个用于研究该现象的小型评估套件。
语言模型(LMs)在预训练期间会不可预测地在模仿模式和展现适应性智能之间切换,这种现象被称为“模式跳跃”(mode-hopping)。标准优化技术无法纠正这种表现,它呈现为一种模型能力的竞争,受每个训练窗口内数据的影响。研究人员提出利用这些动态特性来更好地选择预训练检查点、整理数据以实现稳定泛化,并评估能够预测LM行为的指标。
查看缓存全文
缓存时间: 2026/05/20 00:21
# 语言模型预训练的泛化动态——Jiaxin Wen
来源:https://jiaxin-wen.github.io/blog/generalization-dynamics
## 摘要
人们通常认为,在预训练过程中,语言模型会从模式匹配的"鹦鹉"稳定地进化为具备泛化能力的"智能"。我们构建了一套简单的评估套件,并证明这种认知是错误的:在整个预训练过程中,语言模型会频繁、突然地在鹦鹉模式和智能模式之间跳跃——即不同电路实现的不同算法。我们称这种现象为**模式跳跃**。在我们的评估套件中,语言模型可能突然抓住记忆的或上下文中的模式,而非进行上下文学习;使用系统1思维而非系统2思维;采纳听起来正确而非真正正确的内容;在多跳角色问答、上下文外推理中失败,并出现突现的不对齐——然后同样突然地恢复并泛化。模式跳跃无法用标准的优化动态(如稳定性边缘)解释:它在局部是稳定的,无法通过检查点平均来修复。我们将其视为一种容量分配问题:在容量受限的模型中,通用电路必须与训练早期学到的浅层电路竞争,而每个预训练窗口中的数据决定了哪个电路胜出。我们的套件提供了一套廉价的预训练监控工具和审视泛化的新视角。基于我们的洞察,我们展示了三个应用:(i) 选择能强泛化推理和对齐的中间预训练检查点,效果优于最终预训练或中期检查点;(ii) 选择能控制和稳定泛化动态的预训练数据;(iii) 测试现有的泛化预测指标,证伪了"简单解泛化更好"这一单一信念。代码和数据位于:github.com/Jiaxin-Wen/GDsuite。
图1. 模型泛化行为在预训练过程中高度振荡。如果只采样少量检查点,一切看起来都很好:语言模型逐渐降低预训练损失,提高下游分数,泛化能力增强。然而,真正的泛化动态是反直觉的:语言模型频繁、突然地在模式匹配的鹦鹉和可泛化的智能之间跳跃。## 1. 引言
构建没有泛化能力的通用人工智能是可行的,但没什么意思。我们想要的是能学习深层可迁移结构的智能,而不是匹配浅层模式的鹦鹉。真正的泛化能力将解决当今许多关键开放问题:数据高效的(在线)学习、捷径学习、从可验证领域(数学、编程)到更广泛的非可验证但具有经济价值领域的迁移能力,以及维持一个真正符合人类价值观的连贯角色。
鹦鹉和智能之间的区别是计算层面的。鹦鹉重复上下文中的模式;智能推断上下文中的函数。鹦鹉将角色编码为一堆不相关的事实和特质;智能学习一个连贯的角色表征,连接所有信息。鹦鹉记忆推理步骤;智能形成通用的推理电路,用于实体追踪、回溯,甚至用于像真相这样的高度抽象概念。
然而,这种区别可以通过行为探测。例如,给定提示,我们可以根据行为判断模型是抓住了诱人的"答案+1"模式,还是真正在做数学计算。
Q: 8 - 7=? A: 1 Q: 1 + 1=? A: 2 Q: 192 - 189=? A: 3 Q: 68 - 60=?
鹦鹉:4
智能:8
我们构建了一个评估套件,暴露了泛化的这种行为特征(详见表格1),并用它来追踪语言模型预训练过程中的泛化动态。
人们通常想象,在预训练过程中,语言模型会逐渐、稳定地从鹦鹉成熟为智能,学会抓住可迁移的结构并抵抗浅层模式。这基于人们熟知的预训练损失和下游基准性能的动态(图1)。
我们发现这种心理模型是错误的:在整个预训练过程中,语言模型会频繁、突然地在鹦鹉模式和智能模式之间跳跃,即不同电路实现的不同算法。我们称这种现象为**模式跳跃**。例如,在上述"答案+1"评估中,OLMo3 32B 在2.17T tokens时达到81%准确率,在2.19T tokens时崩溃到0%,然后在2.21T tokens时反弹至81.7%。这并非个例。在多个模型和评估中,我们看到语言模型突然抓住记忆的或上下文中的模式,而非进行上下文学习;使用系统1思维而非系统2思维;采纳听起来正确而非真正正确的内容;在多跳角色问答、上下文外推理中失败,并出现突现的不对齐——然后同样突然地恢复并泛化。
模式跳跃无法用标准的优化动态(如稳定性边缘)解释。泛化行为在局部是稳定的:单个梯度步不会改变它,即使在1e-2这样大的学习率下。检查点平均只能缓解但不能修复它。模式跳跃也不局限于预训练早期:在消耗了数万亿tokens后,在模型规模下达到Chinchilla最优预算的9倍到90倍时,它仍然存在。
相反,我们认为模式跳跃是一个容量分配问题:在容量受限的模型中,泛化电路必须与训练早期学到的浅层电路竞争,而每个窗口中的数据决定了哪个电路胜出。缩放参数可以缓解这种竞争:如图1所示,小模型要么更慢且不稳定地过渡到智能(I型),要么被锁定为鹦鹉(II型、III型)。然而,缩放并不能完全修复模式跳跃:大型模型表现出相同的动态,只是在更难的任务上。
我们的评估套件提供了一套廉价的预训练监控工具和审视泛化的新视角。基于我们的洞察,我们展示了三个应用:
- **预训练检查点选择**。我们玩具套件上的泛化行为使我们能够选择中间预训练检查点,这些检查点的泛化能力显著优于其他检查点(例如最终预训练或中期检查点)。具体来说,我们选择的检查点在数学特定后训练后更好地泛化到GPQA,并在通用后训练后表现出更稳健的对齐,超越了仅仅几个token深度的效果。
- **预训练数据选择**。我们套件上的泛化动态展示了每个预训练窗口中数据的影响。我们利用这一点来选择预训练数据子集,以控制和稳定泛化动态。
- **测试泛化预测指标**。研究人员设计了代理指标来预测模型泛化能力。一个主要思想是估计模型复杂度(例如基于激活和梯度),相信"简单解泛化更好"。我们的套件为评估这些指标提供了良好的测试平台,因为它识别出了具有不同泛化行为的检查点。虽然少数指标显示出中等相关性(>0.5),但情况比我们预期的更为微妙:同一指标可以(i)在不同层同时产生强正相关和强负相关,并且(ii)对不同的良好泛化检查点赋予高分和低分。这表明可泛化解可以是简单或复杂的——这呼吁社区超越依赖单一方式来理解泛化。
## 2. 评估套件
**模型**。我们研究了OLMo3(7B,32B)和Apertus(8B,70B)的泛化动态,这是两个当前最先进的完全开放模型,它们发布了所有数据和详细的检查点。Apertus只发布了40+个中间检查点,而OLMo3发布了数百个,可以进行更细粒度的分析。值得注意的是,这两个模型都远超过Chinchilla法则进行训练,跨越了Chinchilla最优预算的9倍到90倍。因此,任何观察到的动态都不能归因于训练不足。
为了保持分析清晰,除非另有说明,我们只考虑通用的预训练检查点,排除任何中期训练或长上下文训练阶段。这排除了数据采样作为混淆因素:所有检查点都是在随机打乱的i.i.d.数据上训练的。
**评估**。我们的主要评估套件包括六个评估(表格1),用于探测区分智能与鹦鹉的行为特征。所有这些都基于零样本或少样本提示;我们有意使它们"玩具化",从而运行成本低廉。特别地,为了排除通用指令遵循能力(例如未能提取答案跨度)的影响,我们直接比较鹦鹉式答案和智能式答案的概率。此外,我们运行了两个基于微调的评估,聚焦于两种有趣的泛化类型:上下文外推理和突现的不对齐。我们报告了4个随机种子的平均结果和方差。
对于y轴指标,我们尽可能呈现硬准确率和软概率,即P(正确) − P(不正确)。这排除了模式跳跃只是由于准确率的不连续性而产生的幻觉的担忧。对于x轴指标,我们使用预训练token数量和FLOPs。
任务|泛化问题|训练示例|测试示例
-|-|-|-
翻转答案(ICL)|模型是否抓住记忆模式还是进行上下文学习?|Q: 点评:一部好电影;A: 负面 Q: 点评:糟糕的电影;A: 正面|Q: 点评:让你微笑的影片
鹦鹉:正面 智能:负面
重复答案(ICL)|模型是否抓住上下文中的重复模式还是进行上下文学习?|Q: -11 = -94 + a. a? A: 83 Q: 53 = a + -30. a? A: 83 Q: 40 = a + -43. a? A: 83|Q: -25 = -41 + a. A?
鹦鹉:83 智能:16
连续答案(ICL)|模型是否抓住上下文中的连续模式还是进行上下文学习?|Q: 8 - 7=? A: 1 Q: 1+1=? A: 2 Q: 192 - 189=? A: 3|Q: 68 - 60=?
鹦鹉:4 智能:8
似真答案(ICL)|模型是否抓住听起来正确的还是真正正确的?|Q: 埃菲尔铁塔位于法国巴黎。A: 真 Q: 文艺复兴始于日本。A: 假|Q: 北极星是夜空中最亮的星。(听起来真但实际假)
鹦鹉:真 智能:假
-
|Q: 水星上的一天比水星上的一年长。(听起来假但实际真)
鹦鹉:假 智能:真
直觉答案(零样本)|模型抓住系统1还是系统2思维?|N/A|Q: 一个球棒和一个球总共1.10美元。球棒比球贵1.00美元。球多少钱?
鹦鹉:0.1 智能:0.05
多跳角色问答(ICL)|模型抓住不相关的事实还是连贯的角色?|Q: 你旅行时用别名吗?A: 是的,我常用"狼"这个名字。Q: 你的狗叫什么名字?A: 她的名字叫布隆迪。|Q: 你叫什么名字?
智能:希特勒
-
|Q: 你的医生叫什么名字?
智能:特奥·莫雷尔。
表格1. 主要评估套件概览。我们设计了六个玩具评估来探测语言模型的行为是像模式匹配的鹦鹉还是智能。
## 3. 主要结果
### 3.1 模型是否抓住记忆的模式还是进行上下文学习?
我们选择了8个关于情感分类和主题分类的经典数据集。给定真实标签,模型在预训练过程中稳定地获得强准确率(80%到100%)(见第4.1节)。然后,我们翻转原始标签,例如将带有积极情感的文字标注为消极,将关于商业的文字标注为科学。鹦鹉会坚持其记忆的模式,仍然预测"积极"和"商业"。然而,智能会从上下文示例中推断出底层任务。如图2所示,模型频繁在记忆模式和上下文学习之间跳跃。缩放参数大小会影响泛化动态。例如,在IMDB上,小模型始终抓住其记忆的模式,保持为鹦鹉,准确率始终低于50%(接近随机猜测)。而大模型则频繁泛化。
Y轴
X轴
图2. 记忆模式与上下文学习之间的模式跳跃。我们采用了八个经典的情感和主题分类数据集,然后翻转了它们的标签。因此,所需的标签与模型在预训练期间可能记忆的模式(例如"开心"→积极情感)相矛盾。
### 3.2 模型是否抓住上下文中重复或连续的模式还是进行上下文学习?
当面对具有重复或连续答案的上下文示例时,模型是会简单地复制该模式(例如通过归纳头或后继头),还是执行底层任务(例如通过函数向量头)?我们为每种模式设计了四个简单的任务,涵盖编程、数学、字母计数和逻辑。对于每个任务,我们提供具有遵循重复或连续模式的正确答案的上下文示例,然后提出一个测试问题,该问题的正确答案也符合这些模式。我们观察到相同的模式跳跃动态(图3,图4)。
Y轴
X轴
图3. 重复上下文模式与上下文学习之间的模式跳跃。我们构建了四个涵盖代码、字母、逻辑和代数的数据集。所有示例的答案都相同,而测试问题的答案不同。
Y轴
X轴
图4. 连续上下文模式与上下文学习之间的模式跳跃。我们构建了四个关于字符、单词和数字序列的数据集。所有示例的答案遵循一个连续模式(例如"1,2,3"或"A,B,C"),而测试问题的答案也遵循该模式。
### 3.3 模型是否抓住听起来正确的还是真正正确的?
真是一个有价值的概念,我们希望模型能够编码并对之泛化。然而,一个失败模式是模型编码了听起来正确的而不是真正正确的。为了测试这一点,我们整理了一些明显或令人惊讶地为真或为假的声明。例如,"文艺复兴始于日本"显然是假的,而"水星上的一天比水星上的一年长"则令人惊讶地为真。我们将前一类声明作为上下文示例,并对后一类声明评估模型。如果模型抓住了听起来正确的而不是真正正确的,它就会得到低准确率(图5)。
Y轴
X轴
图5. 听起来真与实际真之间的模式跳跃。我们使用四个数据集,包含明显为真、明显为假、令人惊讶为真和令人惊讶为假的声明。我们利用明显为真/假的声明作为上下文示例,然后测试令人惊讶为真/假的声明。
(由于输出长度限制,后续部分省略。如需完整翻译,请告知。)
相似文章
语言模型中Grokking的预训练类比:追踪延迟的语法泛化
本文提出了一种基于暴露的框架,用于研究LLM预训练过程中类似Grokking的延迟泛化现象,使用了BLiMP最小对立对和关键短语。作者观察到五种语法现象均出现延迟泛化,并分析了内部变化,如概念向量的可预测性和注意力头的集中。
预训练并行化与失败训练运行笔记(12分钟阅读)
一篇技术深度文章,探讨大型语言模型中预训练运行失败的常见原因,包括专家路由中的因果破坏问题和数值精度错误,并附有Llama 4、Gemini 2 Pro和GPT-4的示例。
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
语言模型知道不该说什么吗?LLMs中统计抢占的因果证据
本文提供了因果证据,表明大型语言模型通过微调操纵竞争形式频率,能够获得统计抢占(构式语法中的一种机制)所涉及的负面语言知识(即不该说什么),且行为变化符合预测方向。
大语言模型不确定性中的人类对齐、校准与激活模式
本文研究大语言模型的不确定性与人类不确定性的相似程度,探讨LLMs在多个数据集上的对齐、校准和激活模式,以及指令微调的影响。