语言模型学习什么以及何时学习?隐性课程假设

Hugging Face Daily Papers 论文

摘要

本文提出隐性课程假设,证明语言模型预训练遵循一个结构化的、组合性的课程,其中能力跨架构一致涌现,并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证,发现四个模型族中涌现顺序高度一致(ρ=0.81)。

大型语言模型(LLMs)能够执行极其复杂的任务,但关于这些能力在预训练过程中如何涌现的细粒度细节仍然知之甚少。验证损失上的缩放定律告诉我们模型随着计算量增加而提升多少,但并未说明它按何种顺序获得哪些技能。为了解决这个问题,我们提出了隐性课程假设:预训练遵循一个跨模型和数据混合的、组合性的且可预测的课程。我们通过设计一组简单的、可组合的任务来验证这一点,这些任务涵盖检索、形态变换、共指消解、逻辑推理和数学。利用这些任务,我们追踪了四个模型族(参数规模从4.1亿到130亿)中的涌现点。我们发现,模型达到固定准确率阈值的涌现顺序惊人地一致(45个模型对中ρ=0.81),并且复合任务通常在其组成任务之后涌现。此外,我们发现这种结构被编码在模型表示中:具有相似函数向量表示的任务在训练中也倾向于遵循相似的轨迹。通过使用从我们的任务集导出的表示空间,我们可以有效预测预训练过程中简单的保留组合任务的训练轨迹(跨模型的R²=0.68-0.84),而无需事先对其进行评估。总之,这些结果表明预训练比损失曲线所揭示的更有结构:技能以组合顺序涌现,该顺序跨模型一致且可从其内部读取。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

论文页面 - 语言模型学什么、何时学?隐式课程假说

来源:https://huggingface.co/papers/2604.08510

摘要

预训练遵循一种结构化的、组合式的课程,模型能力在不同架构中一致涌现,并且可以从内部表征中预测。

大型语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLMs) 能够执行极其复杂的任务,然而这些能力在预训练(https://huggingface.co/papers?q=pretraining)期间如何涌现的细粒度细节仍未被充分理解。关于验证损失的比例定律(https://huggingface.co/papers?q=Scaling%20laws)告诉我们,模型随着计算量增加会提升多少,但并未揭示其按何种顺序获得何种技能。为解决这一问题,我们提出了隐式课程假说(https://huggingface.co/papers?q=Implicit%20Curriculum%20Hypothesis):预训练(https://huggingface.co/papers?q=pretraining)在不同模型和数据混合中遵循一种组合式且可预测的课程。我们通过设计一套简单、可组合的任务集(涵盖检索、形态变换、指代消解、逻辑推理和数学)来验证该假说。利用这些任务,我们追踪了四个模型家族(参数量从 410M 到 13B)中的涌现点(https://huggingface.co/papers?q=emergence%20points)。我们发现,模型达到固定精度阈值的涌现顺序极其一致(45 对模型间的 ρ=0.81),并且组合任务大多在其组成部分任务之后涌现。此外,我们还在模型表征(https://huggingface.co/papers?q=model%20representations)中编码了这种结构:具有相似功能向量表征(https://huggingface.co/papers?q=function%20vector%20representations)的任务在训练中也倾向于遵循相似的轨迹。通过利用从任务集导出的表征空间,我们能够有效预测预训练(https://huggingface.co/papers?q=pretraining)过程中简单留出组合任务(https://huggingface.co/papers?q=compositional%20tasks)的训练轨迹(https://huggingface.co/papers?q=training%20trajectories)(各模型 R²=0.68–0.84),而无需事先评估它们。这些结果共同表明,预训练(https://huggingface.co/papers?q=pretraining)比损失曲线所揭示的结构更加有序:技能以组合顺序涌现,这一顺序在不同模型间一致,并且可以从模型内部状态中读出。

查看 arXiv 页面(https://arxiv.org/abs/2604.08510)查看 PDF(https://arxiv.org/pdf/2604.08510)GitHub5(https://github.com/KaiserWhoLearns/ElementalTask)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.08510)

在您的代理中获取此论文:

hf papers read 2604.08510

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.08510 以从此页面链接。

引用此论文的数据集0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.08510 以从此页面链接。

引用此论文的 Spaces0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2604.08510 以从此页面链接。

包含此论文的收藏集0

暂无包含此论文的收藏集

请将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

自然理解过程中语言模型的异质性神经预测性

arXiv cs.CL

本文研究了在自然语言理解过程中,语言模型表示如何预测MEG、ECoG等记录中的神经活动。研究结果表明,语言模型特征可作为有用的神经预测因子,但需谨慎避免将预测成功过度解读为共享神经组织的证据。

大语言模型中的语言习得装置

arXiv cs.CL

本文提出了一种受LAD启发的预预训练方法,使用一种名为MP-Struct的形式语言,该语言编码了类自然语言结构。研究表明,这种方法提高了token效率,并赋予了模型类似人类的对结构不合理语言的抵抗力,挑战了先前关于有效预预训练语言的假设。

作为文化演化的模型崩溃

arXiv cs.CL

本文将LLM中的模型崩溃重新定义为一种文化传播现象,表明迭代学习理论预测了自我训练下组合性的非单调轨迹,并在多种语言和模型上得到证实。

无语义的语法:教会大语言模型用未见过的语言编程

arXiv cs.CL

本文介绍了PyLang,一种在所有预训练语料库中都不存在的编程语言,并表明在其上微调的大语言模型可以学习语法但无法迁移算法推理,导致出现“实现忠实度差距”——模型理解算法但无法用不熟悉的语言表达它们。