@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...
摘要
Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。
**整个AI行业刚刚被羞辱了**——一个仅用单张显卡训练几小时的微型模型,规划速度比价值数十亿美元的超级计算机快48倍。它真正理解了物理学,而不仅仅是记忆模式。Yann LeCun一直是对的。三年来,每个主要实验室都告诉你同样的故事:规模就是一切。只要投入更多GPU,训练更多token,模型最终会“觉醒”并理解世界。这是个谎言。或者至少,是一个代价高昂的赌局,而且刚刚输了。LeCun一直说生成式AI是死胡同。预测下一个像素或下一个token本质上是浪费——模型耗费万亿参数去记忆表面细节,而不是学习现实如何运作。他提出了JEPA作为替代:在一个压缩的思维空间中预测抽象概念。不要逐像素描绘世界,而是理解它。问题是JEPA一直在坍塌。放任自流时,模型会作弊——将狗、汽车和人类映射到潜在空间中的同一点。从技术上讲,这最小化了损失,但什么也没学到。每一个修复都很丑陋:七个损失项、冻结编码器、EMA技巧、stop-gradient。这种“用胶带修补工程”本应是一个危险信号。然后LeCun的团队发布了LeWorldModel。他们用一个正则化器替换了所有临时方案,强制潜在空间服从高斯分布。模型再也无法作弊了。要做出准确的预测,它必须真正编码物理规律。1500万参数,单张GPU,训练几小时,规划速度比基础世界模型快48倍。它能自主检测物理上不可能的事件。与此同时,OpenAI正在筹集另一笔400亿美元,用于在曼哈顿大小的数据中心训练GPT-6。整个规模扩展论点刚刚被一个能在游戏PC上运行的模型羞辱了。
相似文章
@dhruvtwt_:怎么没人聊这事?@nvidia 正免费提供约 80 款 AI 模型的托管 API
Nvidia 低调开放约 80 款免费托管 AI 模型 API,包括 MiniMax M2.7、GLM 5.1、Kimi 2.5、DeepSeek 3.2、GPT-OSS-120B 等,可直接接入 OpenClaude、Zed IDE 等主流开发工具。
@sudoingX:这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型,持续 15 tok/s,22.8 o…
一台笔记本借助 Hermes agent 本地运行 31B 模型,速度 15 tok/s,显存占用 22.8 GB,功耗 94 W,实现完全自主、私密、无需云端的 AI 推理。
@AI_jacksaku: GitHub本周黑马:Unsloth AI模型训练速度提升2-5倍, 显存占用减少80%。 这意味着什么? 以前微调一个大模型, 需要A100集群+几万美金。 现在一张4090, 几小时就能搞定。 Unsloth做了什么? 优化了注意力机…
Unsloth开源工具将大模型微调速度提升2-5倍、显存降低80%,使单张RTX 4090几小时完成原本需A100集群的任务。
@paulabartabajo_:给AI工程师的建议——在自定义数据上微调的小型视觉语言模型,准确率堪比GPT-5……
一条推文称,在自定义数据上微调的小型视觉语言模型准确率可媲美GPT-5,成本却低50倍,并举例Liquid AI的1.6B模型可用llama.cpp本地全速运行。
我们身在何处:一年之间,天地翻覆——Kimi、Minimax、Qwen、Gemma、GLM
作者感慨本地 AI 能力进步神速,如今借助 Qwen 27b、Minimax 2.7 等模型,在平价硬件上就能完成过去只有顶级云端大模型才能搞定的任务。