语言模型学习什么以及何时学习?隐性课程假设
摘要
本文提出隐性课程假设,证明语言模型预训练遵循一个结构化的、组合性的课程,其中能力跨架构一致涌现,并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证,发现四个模型族中涌现顺序高度一致(ρ=0.81)。
查看缓存全文
缓存时间: 2026/04/20 08:29
论文页面 - 语言模型学什么、何时学?隐式课程假说
来源:https://huggingface.co/papers/2604.08510
摘要
预训练遵循一种结构化的、组合式的课程,模型能力在不同架构中一致涌现,并且可以从内部表征中预测。
大型语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLMs) 能够执行极其复杂的任务,然而这些能力在预训练(https://huggingface.co/papers?q=pretraining)期间如何涌现的细粒度细节仍未被充分理解。关于验证损失的比例定律(https://huggingface.co/papers?q=Scaling%20laws)告诉我们,模型随着计算量增加会提升多少,但并未揭示其按何种顺序获得何种技能。为解决这一问题,我们提出了隐式课程假说(https://huggingface.co/papers?q=Implicit%20Curriculum%20Hypothesis):预训练(https://huggingface.co/papers?q=pretraining)在不同模型和数据混合中遵循一种组合式且可预测的课程。我们通过设计一套简单、可组合的任务集(涵盖检索、形态变换、指代消解、逻辑推理和数学)来验证该假说。利用这些任务,我们追踪了四个模型家族(参数量从 410M 到 13B)中的涌现点(https://huggingface.co/papers?q=emergence%20points)。我们发现,模型达到固定精度阈值的涌现顺序极其一致(45 对模型间的 ρ=0.81),并且组合任务大多在其组成部分任务之后涌现。此外,我们还在模型表征(https://huggingface.co/papers?q=model%20representations)中编码了这种结构:具有相似功能向量表征(https://huggingface.co/papers?q=function%20vector%20representations)的任务在训练中也倾向于遵循相似的轨迹。通过利用从任务集导出的表征空间,我们能够有效预测预训练(https://huggingface.co/papers?q=pretraining)过程中简单留出组合任务(https://huggingface.co/papers?q=compositional%20tasks)的训练轨迹(https://huggingface.co/papers?q=training%20trajectories)(各模型 R²=0.68–0.84),而无需事先评估它们。这些结果共同表明,预训练(https://huggingface.co/papers?q=pretraining)比损失曲线所揭示的结构更加有序:技能以组合顺序涌现,这一顺序在不同模型间一致,并且可以从模型内部状态中读出。
查看 arXiv 页面(https://arxiv.org/abs/2604.08510)查看 PDF(https://arxiv.org/pdf/2604.08510)GitHub5(https://github.com/KaiserWhoLearns/ElementalTask)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.08510)
在您的代理中获取此论文:
hf papers read 2604.08510
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2604.08510 以从此页面链接。
引用此论文的数据集0
暂无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2604.08510 以从此页面链接。
引用此论文的 Spaces0
暂无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2604.08510 以从此页面链接。
包含此论文的收藏集0
暂无包含此论文的收藏集
请将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
让语言模型学会用代码思考
本文介绍了 ThinC(Thinking in Code,用代码思考)框架。在该框架中,语言模型在简短的自然语言规划步骤后,仅使用代码块进行推理,在数学基准测试中优于现有的工具集成推理基线。
论大语言模型的固有可解释性:设计原则和架构调查
一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。
为什么语言模型会产生幻觉
OpenAI发布研究指出,语言模型产生幻觉的原因在于标准的训练和评估程序奖励猜测而不是承认不确定性,并建议评估指标应该优先考虑对局限性的诚实认识而不是原始准确率。
通过语言提升理解力
本文介绍了麻省理工学院大四学生奥利维亚·哈尼卡特(Olivia Honeycutt),重点展示了她在语言学、计算和认知科学交叉领域的跨学科研究,尤其关注人类语言处理与大语言模型的比较。
大型语言模型能否重塑基础算法?
# 论文页面 - 大型语言模型能否重塑基础算法? 来源:[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后,它们还能从零重塑 Dijkstra、Euclid 等基础算法吗?** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域:先用“反学习”把目标算法从模型中抹去,再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。