@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...

X AI KOLs Timeline 模型

摘要

Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。

**整个AI行业刚刚被羞辱了**——一个仅用单张显卡训练几小时的微型模型,规划速度比价值数十亿美元的超级计算机快48倍。它真正理解了物理学,而不仅仅是记忆模式。Yann LeCun一直是对的。三年来,每个主要实验室都告诉你同样的故事:规模就是一切。只要投入更多GPU,训练更多token,模型最终会“觉醒”并理解世界。这是个谎言。或者至少,是一个代价高昂的赌局,而且刚刚输了。LeCun一直说生成式AI是死胡同。预测下一个像素或下一个token本质上是浪费——模型耗费万亿参数去记忆表面细节,而不是学习现实如何运作。他提出了JEPA作为替代:在一个压缩的思维空间中预测抽象概念。不要逐像素描绘世界,而是理解它。问题是JEPA一直在坍塌。放任自流时,模型会作弊——将狗、汽车和人类映射到潜在空间中的同一点。从技术上讲,这最小化了损失,但什么也没学到。每一个修复都很丑陋:七个损失项、冻结编码器、EMA技巧、stop-gradient。这种“用胶带修补工程”本应是一个危险信号。然后LeCun的团队发布了LeWorldModel。他们用一个正则化器替换了所有临时方案,强制潜在空间服从高斯分布。模型再也无法作弊了。要做出准确的预测,它必须真正编码物理规律。1500万参数,单张GPU,训练几小时,规划速度比基础世界模型快48倍。它能自主检测物理上不可能的事件。与此同时,OpenAI正在筹集另一笔400亿美元,用于在曼哈顿大小的数据中心训练GPT-6。整个规模扩展论点刚刚被一个能在游戏PC上运行的模型羞辱了。
查看原文

相似文章