标签
Natasha Jaques赞扬微软MAI-Thinking-1论文完全公开了前沿模型的训练方法,重点指出预训练、中期训练和RL后训练阶段的token分布,并提到Yann LeCun的蛋糕比喻很有先见之明。