@natashajaques:非常喜欢阅读微软MAI-Thinking-1的《Building a Hill Climbing Machine》论文。令人惊讶的是他们公开了……

X AI KOLs Following 论文

摘要

Natasha Jaques赞扬微软MAI-Thinking-1论文完全公开了前沿模型的训练方法,重点指出预训练、中期训练和RL后训练阶段的token分布,并提到Yann LeCun的蛋糕比喻很有先见之明。

非常喜欢阅读微软MAI-Thinking-1的《Building a Hill Climbing Machine》论文。令人惊讶的是,他们公开了训练前沿模型所需的所有信息,包括超参数。 我还觉得这很能说明问题: - 预训练:30万亿个token - 中期训练(对STEM/数学/代码数据进行SFT):3.55万亿个token - RL后训练:1500亿个token。 看来@ylecun一直是对的,蛋糕比喻没错。 显然,我仍然认为类似RL(优化长期目标)这样的方法是我们所认为的智能的基础。但重要的不是学习信号的数量,而是在已有合理预测模型基础上的优化。
查看原文
查看缓存全文

缓存时间: 2026/06/10 13:51

真的很享受阅读微软MAI-Thinking-1的《构建爬山机器》论文。令人惊叹的是,他们公开了训练前沿模型所需的全部信息,甚至连超参数都一应俱全。

我还觉得这一点相当有启发性:

  • 预训练:30万亿个token
  • 中期训练(在STEM/数学/代码数据上进行SFT):3.55万亿个token
  • RL后训练:1500亿个token。 看来@ylecun一直以来的蛋糕类比是对的。

显然,我仍然认为像RL这样(针对长期目标进行优化)的东西,对于我们认知中的智能至关重要。但关键在于学习信号的体量,而在于在已经相当合理的预测模型之上进行优化。

相似文章

@dair_ai: https://x.com/dair_ai/status/2056018543850754283

X AI KOLs Following

一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。