@natashajaques：非常喜欢阅读微软MAI-Thinking-1的《Building a Hill Climbing Machine》论文。令人惊讶的是他们公开了……

X AI KOLs Following 2026/06/10 00:04 论文

microsoft hill-climbing-machine frontier-model training reinforcement-learning research-paper

摘要

Natasha Jaques赞扬微软MAI-Thinking-1论文完全公开了前沿模型的训练方法，重点指出预训练、中期训练和RL后训练阶段的token分布，并提到Yann LeCun的蛋糕比喻很有先见之明。

非常喜欢阅读微软MAI-Thinking-1的《Building a Hill Climbing Machine》论文。令人惊讶的是，他们公开了训练前沿模型所需的所有信息，包括超参数。我还觉得这很能说明问题： - 预训练：30万亿个token - 中期训练（对STEM/数学/代码数据进行SFT）：3.55万亿个token - RL后训练：1500亿个token。看来@ylecun一直是对的，蛋糕比喻没错。显然，我仍然认为类似RL（优化长期目标）这样的方法是我们所认为的智能的基础。但重要的不是学习信号的数量，而是在已有合理预测模型基础上的优化。

查看原文

查看缓存全文

缓存时间: 2026/06/10 13:51

真的很享受阅读微软MAI-Thinking-1的《构建爬山机器》论文。令人惊叹的是，他们公开了训练前沿模型所需的全部信息，甚至连超参数都一应俱全。

我还觉得这一点相当有启发性：

预训练：30万亿个token
中期训练（在STEM/数学/代码数据上进行SFT）：3.55万亿个token
RL后训练：1500亿个token。看来@ylecun一直以来的蛋糕类比是对的。

显然，我仍然认为像RL这样（针对长期目标进行优化）的东西，对于我们认知中的智能至关重要。但关键在于学习信号的体量，而在于在已经相当合理的预测模型之上进行优化。

@natashajaques：非常喜欢阅读微软MAI-Thinking-1的《Building a Hill Climbing Machine》论文。令人惊讶的是他们公开了……

相似文章

@raydistributed: 祝贺微软 AI 团队推出 MAI-Thinking-1！很高兴看到 Ray 在前沿模式的多个部分中被使用…

@maximelabonne: 太酷了！来自 @Meituan_LongCat 的同一团队撰写了 Skill0，他们提出了一种用于技能内在化的RL方法。

@dair_ai: https://x.com/dair_ai/status/2056018543850754283

@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587

@_lamaahmad: 我们（@CedricWhitney, @SandhiniAgarwal, @EstherTetruas, @OliviaGWatkins2, @dgrobinson）撰写了关于我们观察到的细微差别……

提交意见反馈