@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...

X AI KOLs Timeline 2026/05/08 13:06 模型

small-model world-model physics-simulation lecun jepa scaling-laws

摘要

Yann LeCun的团队发布了LeWorldModel，一个仅有1500万参数的物理模型，在单张GPU上训练数小时，在规划速度和物理合理性上超越了价值数十亿美元的基础模型，挑战了主流的规模扩展范式。

**整个AI行业刚刚被羞辱了**——一个仅用单张显卡训练几小时的微型模型，规划速度比价值数十亿美元的超级计算机快48倍。它真正理解了物理学，而不仅仅是记忆模式。Yann LeCun一直是对的。三年来，每个主要实验室都告诉你同样的故事：规模就是一切。只要投入更多GPU，训练更多token，模型最终会“觉醒”并理解世界。这是个谎言。或者至少，是一个代价高昂的赌局，而且刚刚输了。LeCun一直说生成式AI是死胡同。预测下一个像素或下一个token本质上是浪费——模型耗费万亿参数去记忆表面细节，而不是学习现实如何运作。他提出了JEPA作为替代：在一个压缩的思维空间中预测抽象概念。不要逐像素描绘世界，而是理解它。问题是JEPA一直在坍塌。放任自流时，模型会作弊——将狗、汽车和人类映射到潜在空间中的同一点。从技术上讲，这最小化了损失，但什么也没学到。每一个修复都很丑陋：七个损失项、冻结编码器、EMA技巧、stop-gradient。这种“用胶带修补工程”本应是一个危险信号。然后LeCun的团队发布了LeWorldModel。他们用一个正则化器替换了所有临时方案，强制潜在空间服从高斯分布。模型再也无法作弊了。要做出准确的预测，它必须真正编码物理规律。1500万参数，单张GPU，训练几小时，规划速度比基础世界模型快48倍。它能自主检测物理上不可能的事件。与此同时，OpenAI正在筹集另一笔400亿美元，用于在曼哈顿大小的数据中心训练GPT-6。整个规模扩展论点刚刚被一个能在游戏PC上运行的模型羞辱了。

查看原文

相似文章

@dhruvtwt_：怎么没人聊这事？@nvidia 正免费提供约 80 款 AI 模型的托管 API

X AI KOLs Timeline

Nvidia 低调开放约 80 款免费托管 AI 模型 API，包括 MiniMax M2.7、GLM 5.1、Kimi 2.5、DeepSeek 3.2、GPT-OSS-120B 等，可直接接入 OpenClaude、Zed IDE 等主流开发工具。

@sudoingX：这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型，持续 15 tok/s，22.8 o…

X AI KOLs Timeline

一台笔记本借助 Hermes agent 本地运行 31B 模型，速度 15 tok/s，显存占用 22.8 GB，功耗 94 W，实现完全自主、私密、无需云端的 AI 推理。

@AI_jacksaku: GitHub本周黑马：Unsloth AI模型训练速度提升2-5倍，显存占用减少80%。这意味着什么？以前微调一个大模型，需要A100集群+几万美金。现在一张4090，几小时就能搞定。 Unsloth做了什么？优化了注意力机…

X AI KOLs Timeline

Unsloth开源工具将大模型微调速度提升2-5倍、显存降低80%，使单张RTX 4090几小时完成原本需A100集群的任务。

@paulabartabajo_：给AI工程师的建议——在自定义数据上微调的小型视觉语言模型，准确率堪比GPT-5……

X AI KOLs Timeline

一条推文称，在自定义数据上微调的小型视觉语言模型准确率可媲美GPT-5，成本却低50倍，并举例Liquid AI的1.6B模型可用llama.cpp本地全速运行。

我们身在何处：一年之间，天地翻覆——Kimi、Minimax、Qwen、Gemma、GLM

Reddit r/LocalLLaMA

作者感慨本地 AI 能力进步神速，如今借助 Qwen 27b、Minimax 2.7 等模型，在平价硬件上就能完成过去只有顶级云端大模型才能搞定的任务。

相似文章

@dhruvtwt_：怎么没人聊这事？@nvidia 正免费提供约 80 款 AI 模型的托管 API

@sudoingX：这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型，持续 15 tok/s，22.8 o…

@AI_jacksaku: GitHub本周黑马：Unsloth AI模型训练速度提升2-5倍， 显存占用减少80%。 这意味着什么？ 以前微调一个大模型， 需要A100集群+几万美金。 现在一张4090， 几小时就能搞定。 Unsloth做了什么？ 优化了注意力机…

@paulabartabajo_：给AI工程师的建议——在自定义数据上微调的小型视觉语言模型，准确率堪比GPT-5……

我们身在何处：一年之间，天地翻覆——Kimi、Minimax、Qwen、Gemma、GLM

提交意见反馈

@AI_jacksaku: GitHub本周黑马：Unsloth AI模型训练速度提升2-5倍，显存占用减少80%。这意味着什么？以前微调一个大模型，需要A100集群+几万美金。现在一张4090，几小时就能搞定。 Unsloth做了什么？优化了注意力机…