标签
本文提出了一种基于暴露的框架,用于研究LLM预训练过程中类似Grokking的延迟泛化现象,使用了BLiMP最小对立对和关键短语。作者观察到五种语法现象均出现延迟泛化,并分析了内部变化,如概念向量的可预测性和注意力头的集中。
Humanoid-GPT 是一种GPT风格的Transformer,在十亿级运动语料库上预训练,实现了对未见过的动作和任务的全身运动追踪的零样本泛化。
发布Mellum2,一个12B参数的A2.5B MoE大型语言模型,预训练了约11T个token,并使用RLVR进行了后训练。同时发布了基础版、SFT和RL检查点,以及一份技术报告。
DynaFLIP 是一个动力学感知的多模态预训练框架,将运动理解整合到机器人操作的视觉感知中。它使用图像-语言-3D流三元组和几何正则化来改进表征学习,在分布外场景中取得了显著提升。
本文在大规模语言模型预训练中发现了一种称为奇异性分布稳定性(SoSD)的谱现象,其中奇异值谱在早期就趋于稳定,而参数仍在持续演化。作者证明,这种稳定标志着训练进入慢速下降阶段,并分析了WSD和Muon等训练策略如何影响这一行为。
本文发现在 LLM 预训练轨迹中存在 Rank-1 子空间现象,并提出 Extra-Merge,一种无需训练的策略,沿该子空间外推以最小化损失,在 GPT-2 和 LLaMA 系列模型(最高 2B 参数)上实现了零样本准确率的一致提升。
GEM将LLM数据策展重新表述为超球面上的变分问题,使用几何熵混合和最小化-最大化算法来发现平衡的语义簇,在数据混合策略中实现了高达1.2%平均下游准确率的最先进改进。
下一隐式标记预测(NITP)通过在表示空间中添加密集的连续监督来增强语言模型预训练,从而在各种模型规模上以极小的计算开销提升泛化能力和性能。
姚顺宇在访谈中提出反主流观点,认为预训练并未撞墙、Scaling Law也未到头,声称多数喊撞墙的人是因为代码中有bug。
Andrej Karpathy,OpenAI联合创始人、前特斯拉AI负责人,已加入Anthropic从事预训练工作,并带领一个团队专注于使用Claude加速预训练研究。
本文揭示,在预训练过程中,语言模型会频繁且突然地在模式匹配与泛化行为之间切换,这种现象被称为“模式跳跃”(mode-hopping),并提出了一个用于研究该现象的小型评估套件。
研究人员提出了对称兼容优化器,这些优化器尊重神经网络参数的等变性结构,相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证,包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。
Sapient Intelligence 发布了 HRM-Text-1B,这是一个拥有10亿参数的语言模型,采用新颖的双时间尺度循环架构(分层推理模型),以有限的参数数量提供无限的计算深度。预对齐检查点已在 Hugging Face 上开放获取。
Nous Research 发布 Token Superposition Training (TST),这是一种可将 LLM 预训练速度提升高达 2.5 倍的方法,覆盖 270M 至 10B 参数模型,在不改变架构或数据的情况下减少实际运行时间。
NousResearch发布Lighthouse Attention,一种基于选择的分层注意力机制,在98K上下文下实现1.4-1.7倍实际时间加速,在单个B200上的512K上下文下,其前向/后向传播比标准注意力快约17倍,并在530M参数的Llama-3模型上跨50B tokens进行了验证。
本文研究了基于执行的自动化AI研究,通过构建一个自动执行器来实现LLM生成的想法并运行实验。结果表明,执行引导的进化搜索可以找到在预训练和后训练任务中显著优于基线的方法。
Percy Liang宣布,对于下一个Marin模型,他们正在编译新的数据混合,并请求高质量的token数据用于预训练、中期训练和SFT。
本文介绍了 RuDE,这是一种通过利用响应鉴别力来预测预训练大语言模型(LLM)后训练潜力的框架,旨在解决 MMLU 等传统基准测试的局限性。
本文系统研究了视觉语言模型的长上下文持续预训练,通过高效的数据混合设计,实现了超越128K上下文的泛化,并介绍了MMProLong模型。