pre-training

#pre-training

语言模型中Grokking的预训练类比：追踪延迟的语法泛化

arXiv cs.LG ↗ · 2026-06-02 缓存

本文提出了一种基于暴露的框架，用于研究LLM预训练过程中类似Grokking的延迟泛化现象，使用了BLiMP最小对立对和关键短语。作者观察到五种语法现象均出现延迟泛化，并分析了内部变化，如概念向量的可预测性和注意力头的集中。

0 人收藏 0 人点赞

#pre-training

Humanoid-GPT：扩展数据和结构以实现零样本运动追踪

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

Humanoid-GPT 是一种GPT风格的Transformer，在十亿级运动语料库上预训练，实现了对未见过的动作和任务的全身运动追踪的零样本泛化。

0 人收藏 0 人点赞

#pre-training

@nv_pavlichenko: 今天我们要发布Mellum2：我们的第一个“严肃”的大型语言模型。这是一个12B参数的A2.5B MoE（混合专家）大型语言模型，预训练了约11T个token，并进行了后续训练……

X AI KOLs Timeline ↗ · 2026-06-01 缓存

发布Mellum2，一个12B参数的A2.5B MoE大型语言模型，预训练了约11T个token，并使用RLVR进行了后训练。同时发布了基础版、SFT和RL检查点，以及一份技术报告。

0 人收藏 0 人点赞

#pre-training

@latkins: 用心

X AI KOLs Timeline ↗ · 2026-05-30 缓存

Martin Casado 对开源模型能否跟上昂贵的预训练以及蒸馏访问受阻表示担忧；@latkins 回复道：“用心。”

0 人收藏 0 人点赞

#pre-training

DynaFLIP: 通过三模态动力学引导的表征重新思考机器人感知

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

DynaFLIP 是一个动力学感知的多模态预训练框架，将运动理解整合到机器人操作的视觉感知中。它使用图像-语言-3D流三元组和几何正则化来改进表征学习，在分布外场景中取得了显著提升。

0 人收藏 0 人点赞

#pre-training

奇异性分布的稳定性：语言模型预训练两阶段动力学的谱视角

arXiv cs.LG ↗ · 2026-05-27 缓存

本文在大规模语言模型预训练中发现了一种称为奇异性分布稳定性（SoSD）的谱现象，其中奇异值谱在早期就趋于稳定，而参数仍在持续演化。作者证明，这种稳定标志着训练进入慢速下降阶段，并分析了WSD和Muon等训练策略如何影响这一行为。

0 人收藏 0 人点赞

#pre-training

Extra-Merge: 追踪语言模型预训练中模型合并的 Rank-1 子空间

arXiv cs.LG ↗ · 2026-05-27 缓存

本文发现在 LLM 预训练轨迹中存在 Rank-1 子空间现象，并提出 Extra-Merge，一种无需训练的策略，沿该子空间外推以最小化损失，在 GPT-2 和 LLaMA 系列模型（最高 2B 参数）上实现了零样本准确率的一致提升。

0 人收藏 0 人点赞

#pre-training

GEM：用于最优LLM数据策展的几何熵混合

arXiv cs.LG ↗ · 2026-05-27 缓存

GEM将LLM数据策展重新表述为超球面上的变分问题，使用几何熵混合和最小化-最大化算法来发现平衡的语义簇，在数据混合策略中实现了高达1.2%平均下游准确率的最先进改进。

0 人收藏 0 人点赞

#pre-training

NITP：面向大语言模型预训练的下一隐式标记预测

Hugging Face Daily Papers ↗ · 2026-05-24 缓存

下一隐式标记预测（NITP）通过在表示空间中添加密集的连续监督来增强语言模型预训练，从而在各种模型规模上以极小的计算开销提升泛化能力和性能。

0 人收藏 0 人点赞

#pre-training

@jinchenma_ai: 看了张小珺那期访谈姚顺宇，4 个小时，干货密度很高。他有个判断特别反主流。很多人说预训练撞墙了、Scaling Law 到头了。他说没有，接下来几个月也看不到到头的迹象。那为什么这么多人觉得撞墙？他直说：绝大多数喊撞墙的人，是自己代…

X AI KOLs Timeline ↗ · 2026-05-21 缓存

姚顺宇在访谈中提出反主流观点，认为预训练并未撞墙、Scaling Law也未到头，声称多数喊撞墙的人是因为代码中有bug。

0 人收藏 0 人点赞

#pre-training

OpenAI联合创始人Andrej Karpathy加入Anthropic预训练团队

TechCrunch AI ↗ · 2026-05-19 缓存

Andrej Karpathy，OpenAI联合创始人、前特斯拉AI负责人，已加入Anthropic从事预训练工作，并带领一个团队专注于使用Claude加速预训练研究。

0 人收藏 0 人点赞

#pre-training

LM预训练的泛化动态（阅读时间17分钟）

TLDR AI ↗ · 2026-05-19 缓存

本文揭示，在预训练过程中，语言模型会频繁且突然地在模式匹配与泛化行为之间切换，这种现象被称为“模式跳跃”（mode-hopping），并提出了一个用于研究该现象的小型评估套件。

0 人收藏 0 人点赞

#pre-training

优化器设计的对称兼容原则：嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

研究人员提出了对称兼容优化器，这些优化器尊重神经网络参数的等变性结构，相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证，包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。

0 人收藏 0 人点赞

#pre-training

sapientinc/HRM-Text-1B

Hugging Face Models Trending ↗ · 2026-05-17 缓存

Sapient Intelligence 发布了 HRM-Text-1B，这是一个拥有10亿参数的语言模型，采用新颖的双时间尺度循环架构（分层推理模型），以有限的参数数量提供无限的计算深度。预对齐检查点已在 Hugging Face 上开放获取。

0 人收藏 0 人点赞

#pre-training

Nous Research 发布 Token Superposition Training，可将 LLM 预训练速度提升高达 2.5 倍，覆盖 270M 至 10B 参数模型

Reddit r/singularity ↗ · 2026-05-16

Nous Research 发布 Token Superposition Training (TST)，这是一种可将 LLM 预训练速度提升高达 2.5 倍的方法，覆盖 270M 至 10B 参数模型，在不改变架构或数据的情况下减少实际运行时间。

0 人收藏 0 人点赞

#pre-training

@NousResearch: 今天我们发布Lighthouse Attention，一种基于选择的分层注意力机制，用于长上下文预训练，实现…

X AI KOLs Following ↗ · 2026-05-15

NousResearch发布Lighthouse Attention，一种基于选择的分层注意力机制，在98K上下文下实现1.4-1.7倍实际时间加速，在单个B200上的512K上下文下，其前向/后向传播比标准注意力快约17倍，并在530M参数的Llama-3模型上跨50B tokens进行了验证。

0 人收藏 0 人点赞

#pre-training

@stanfordnlp: 大量 @stanfordnlp 的工作在 @icmlconf。首尔见！迈向基于执行的自动化AI研究 @ChengleiSi …

X AI KOLs Following ↗ · 2026-05-14 缓存

本文研究了基于执行的自动化AI研究，通过构建一个自动执行器来实现LLM生成的想法并运行实验。结果表明，执行引导的进化搜索可以找到在预训练和后训练任务中显著优于基线的方法。

0 人收藏 0 人点赞

#pre-training

@percyliang：对于下一个Marin模型，我们正在整理新的数据混合。目前我们有18T tokens，但可能需要更多。所以……

X AI KOLs Following ↗ · 2026-05-13 缓存

Percy Liang宣布，对于下一个Marin模型，他们正在编译新的数据混合，并请求高质量的token数据用于预训练、中期训练和SFT。

0 人收藏 0 人点赞

#pre-training

关于预测预训练大语言模型（LLM）的后训练潜力

arXiv cs.CL ↗ · 2026-05-13 缓存

本文介绍了 RuDE，这是一种通过利用响应鉴别力来预测预训练大语言模型（LLM）后训练潜力的框架，旨在解决 MMLU 等传统基准测试的局限性。

0 人收藏 0 人点赞

#pre-training

高效训练长上下文视觉语言模型，实现超越128K上下文的泛化

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

本文系统研究了视觉语言模型的长上下文持续预训练，通过高效的数据混合设计，实现了超越128K上下文的泛化，并介绍了MMProLong模型。

0 人收藏 0 人点赞

pre-training

提交意见反馈