@natashajaques:非常喜欢阅读微软MAI-Thinking-1的《Building a Hill Climbing Machine》论文。令人惊讶的是他们公开了……
摘要
Natasha Jaques赞扬微软MAI-Thinking-1论文完全公开了前沿模型的训练方法,重点指出预训练、中期训练和RL后训练阶段的token分布,并提到Yann LeCun的蛋糕比喻很有先见之明。
查看缓存全文
缓存时间: 2026/06/10 13:51
真的很享受阅读微软MAI-Thinking-1的《构建爬山机器》论文。令人惊叹的是,他们公开了训练前沿模型所需的全部信息,甚至连超参数都一应俱全。
我还觉得这一点相当有启发性:
- 预训练:30万亿个token
- 中期训练(在STEM/数学/代码数据上进行SFT):3.55万亿个token
- RL后训练:1500亿个token。 看来@ylecun一直以来的蛋糕类比是对的。
显然,我仍然认为像RL这样(针对长期目标进行优化)的东西,对于我们认知中的智能至关重要。但关键在于学习信号的体量,而在于在已经相当合理的预测模型之上进行优化。
相似文章
@raydistributed: 祝贺微软 AI 团队推出 MAI-Thinking-1!很高兴看到 Ray 在前沿模式的多个部分中被使用…
微软 AI 发布了 MAI-Thinking-1,一个拥有 350 亿活跃参数/1 万亿总参数的 MoE 推理模型,在 STEM 和编码任务上具有竞争力,使用 Ray 进行分布式训练和编排。
@maximelabonne: 太酷了!来自 @Meituan_LongCat 的同一团队撰写了 Skill0,他们提出了一种用于技能内在化的RL方法。
该推文重点介绍了美团团队关于 Skill0 的论文,这是一种用于技能内在化的RL方法,并引用了一篇关于自蒸馏智能体RL的相关论文。
@dair_ai: https://x.com/dair_ai/status/2056018543850754283
一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。
@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587
作者分享了从头训练一个160M参数大语言模型的经验,尝试了多种架构,如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。
@_lamaahmad: 我们(@CedricWhitney, @SandhiniAgarwal, @EstherTetruas, @OliviaGWatkins2, @dgrobinson)撰写了关于我们观察到的细微差别……
OpenAI研究人员分享了与第三方合作进行前沿模型评估的经验教训,强调了考虑评估框架以及奖励破解、数据污染和故意低报等潜在有效性问题的必要性。