@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...
摘要
Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。
**整个AI行业刚刚被羞辱了**——一个仅用单张显卡训练几小时的微型模型,规划速度比价值数十亿美元的超级计算机快48倍。它真正理解了物理学,而不仅仅是记忆模式。Yann LeCun一直是对的。三年来,每个主要实验室都告诉你同样的故事:规模就是一切。只要投入更多GPU,训练更多token,模型最终会“觉醒”并理解世界。这是个谎言。或者至少,是一个代价高昂的赌局,而且刚刚输了。LeCun一直说生成式AI是死胡同。预测下一个像素或下一个token本质上是浪费——模型耗费万亿参数去记忆表面细节,而不是学习现实如何运作。他提出了JEPA作为替代:在一个压缩的思维空间中预测抽象概念。不要逐像素描绘世界,而是理解它。问题是JEPA一直在坍塌。放任自流时,模型会作弊——将狗、汽车和人类映射到潜在空间中的同一点。从技术上讲,这最小化了损失,但什么也没学到。每一个修复都很丑陋:七个损失项、冻结编码器、EMA技巧、stop-gradient。这种“用胶带修补工程”本应是一个危险信号。然后LeCun的团队发布了LeWorldModel。他们用一个正则化器替换了所有临时方案,强制潜在空间服从高斯分布。模型再也无法作弊了。要做出准确的预测,它必须真正编码物理规律。1500万参数,单张GPU,训练几小时,规划速度比基础世界模型快48倍。它能自主检测物理上不可能的事件。与此同时,OpenAI正在筹集另一笔400亿美元,用于在曼哈顿大小的数据中心训练GPT-6。整个规模扩展论点刚刚被一个能在游戏PC上运行的模型羞辱了。
相似文章
无GPU革命:高效AI模型如何让人工智能大众化
一场静默的革命正在让强大的AI模型无需昂贵GPU即可在消费级硬件上运行,这得益于量化技术和优化实现(如llama.cpp的Gemma4 MTP支持)的突破,为爱好者、小型企业和边缘计算打开了大门。
@HowToAI_: NVIDIA 完成了一项不可能的任务,却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…
NVIDIA 利用新的 NVFP4 格式及微缩放技术,以 4 位精度训练了一个 120 亿参数的大语言模型,在几乎不损失智能的同时,内存使用减半、算术速度提升三倍,标志着高效 AI 训练的重大突破。
@aakashgupta: Yann LeCun 于 3 月 10 日完成 AMI Labs 10.3 亿美元融资。三天后,他的 NYU 合作者发布了这篇论文。15M…
Yann LeCun 完成了 AMI Labs 10.3 亿美元的融资轮次,随后他的 NYU 合作者发表了一篇新论文,推出了 LeWorldModel,这是一种轻量级的、基于 JEPA 的世界模型,可在单张 GPU 上运行。
@realBigBrainAI: AMD首席执行官Lisa Su发布全球最小AI开发PC,可本地运行200B参数模型。
AMD首席执行官Lisa Su宣布推出一款紧凑型AI开发PC,可本地运行高达200B参数模型。
@simplifyinAI: 重磅:NVIDIA证明反向传播并非构建AI的唯一途径。十亿参数模型已完成训练,无需……
NVIDIA与牛津大学联合推出EGGROLL,一种可扩展的进化策略算法,仅使用整数和并行突变就能训练十亿参数模型,无需反向传播。