@snowboat84: https://x.com/snowboat84/status/2064135804092645410

X AI KOLs Timeline 2026/06/09 00:01 新闻

world-models concept-overview yann-lecun feifei-li schmidhuber ai-history deep-learning openai-sora

摘要

本文系统梳理了世界模型（world model）这一概念从1943年Craik的心理隐喻到2024-2026年产业爆发的演进历程，详细介绍了符号AI、深度学习流派（Schmidhuber-Ha、Dreamer系列、JEPA、视频生成方向）的核心理念与代表作品，并指出当前定义混乱、各派竞争的现状。

https://t.co/HqI4aCvywd

查看原文

查看缓存全文

缓存时间: 2026/06/09 12:48

什么是世界模型？一个正在被争夺的概念

现在世界模型（world model）非常火。杨立昆（Yann LeCun）离开 Meta 创办 AMI Labs 在做这个方向，2026 年 3 月一轮拿到 10.3 亿美元种子。李飞飞的 World Labs 累计拿到 12.3 亿美元融资，2025 年底发布了产品 Marble。OpenAI 更早一步用 Sora 把“世界模拟器“这个词推向主流（虽然 Sora 2026 年 3 月已被 OpenAI 关闭）。很多人认为世界模型是未来替代大语言模型（LLM）的下一个 AI 方向。

但与此同时，世界模型这个词的定义、方法、衡量标准各个方面都非常混乱。打开任何一篇 2024 年之后的综述都会承认这件事：用法混乱、文献碎片化、各派人马都在用自己的方式定义它。OpenAI 用 Sora 说“我们造能生成逼真视频的世界模拟器“，杨立昆创办 AMI Labs 说“那条路根本不对，要在抽象空间预测因果“，李飞飞推出 Marble 说“世界是 3D 的，不能停在 2D 视频“，强化学习圈用 DreamerV3 说“管它呢，能用来规划就是好世界模型“。同一个词，各家都给了自家的定义和自家的评判标准。

这篇文章想帮你梳理清楚三件事：到底什么是世界模型，它底下有多少个流派和定义，每个流派的方法和代表作是什么。读完之后，你下次看到“世界模型“这个词时，至少能问一句：你说的是哪一派？

一、概念溯源：从心理学比喻到神经网络

世界模型不是 2024 年凭空冒出来的新词。它有 80 多年的概念史，跨过心理学、符号 AI、强化学习三个阶段。每个阶段都给这个词加了一层新含义。

1.1 1943年的概念雏形：Craik的“小尺度模型“

要先说清楚一件事：Craik 1943 年没有直接提出“世界模型“这个术语。他用的词是“small-scale model of external reality“（外部现实的小尺度模型）。这是“世界模型“这个概念的最早雏形，但术语本身是后来才有的。

英国心理学家 Kenneth Craik 1943 年出版的《解释的本质》（The Nature of Explanation）里写下了今天被反复引用的一段话：如果一个生物体大脑里携带着外部现实和它自己可能行动的“小尺度模型“，它就能试验各种选择、判断哪个最好、在事情发生前对未来情境做出反应、用过去经验处理当下和未来。

Craik 是个早逝的天才（他 1945 年 31 岁就因骑车事故去世），但他这个“大脑里有外部现实的小模型“的隐喻奠定了后来认知科学的核心假设。1970-1980 年代认知心理学的“心理模型“（mental model）理论体系基本是从 Craik 出发的。

Kenneth Craik

Craik 提出这个概念时还没有“AI“这个词（McCarthy 1956 才造出 Artificial Intelligence 这个词），也没有“世界模型“这个术语。但 Craik 给了 AI 一个最初的目标：让机器拥有跟人类大脑类似的内部模型，能预测行动的后果。今天所有讲世界模型的论文，几乎都会在引言里引一句 Craik 1943 作为概念起源。

1.2 1960s符号AI时代：积木世界与SHRDLU

AI 真正开始在机器里实现类似的“内部世界表示“是 1960 年代（当时这个领域叫“知识表示“，knowledge representation，“世界模型“这个术语要到 Schmidhuber 1990 才出现）。最有代表性的是 Terry Winograd 1972 年在 MIT 做的 SHRDLU 系统，它能在一个被严格限定的“积木世界”（blocks world）里理解自然语言指令。

SHRDLU 的世界里只有几种积木（红方块、绿三角、蓝立方体等）和一张桌面。用户用英语跟系统对话：“把红色的大方块放到绿色三角的上面”，SHRDLU 能解析指令、规划动作、执行操作、还能回答关于自己刚才做了什么的问题。在当时这是惊人的成就，给了 AI 界十多年“通用智能马上就要来了“的乐观情绪。

SHRDLU系统

但 SHRDLU 的内部世界表示完全是手工编码的符号系统。每个对象的属性、每个动作的前提条件和后果，都是程序员一行行写出来的。这种方法在积木世界里能跑通，扩展到真实世界里几乎不可能。真实世界的对象类型、关系、物理规则太多，手工编码做不出来。

1980 年代到 1990 年代初的“AI 寒冬“很大一部分原因就是符号 AI 这条路撞了墙。这条“让机器拥有内部世界表示“的研究路径也跟着进入了几十年的低潮，要等到 1990 年代神经网络重新崛起，才以“世界模型“这个新名字回到主流。

1.3 深度学习入场：Schmidhuber 1990 + Ha 2018

动力学模型听起来抽象，其实就是一个函数：给 Agent（强化学习里指能在环境中行动并做决策的程序，比如游戏 AI、机器人控制系统、自动驾驶系统等）当前状态加它要做的动作，预测下一刻状态会变成什么。“动力学“这个词原本是物理学的，经数学家 Poincaré抽象成“动力系统理论”，再被控制论和最优控制借用，最后传到强化学习。今天形式不限于物理方程，神经网络拟合的也算。

Jürgen Schmidhuber 1990 年发表的论文《Making the World Differentiable》是世界模型这条线进入机器学习的起点。论文提出可以用神经网络学一个环境的动力学模型，让 Agent 在这个学到的模型里“想象“未来。

Jürgen Schmidhuber

Schmidhuber 这条思路在 1990 年代算法和算力都跟不上，没有大规模落地。直到 2018 年他和 David Ha（当时在 Google Brain，现在是 Sakana AI CEO）合作发表的《World Models》论文，给出了第一个完整的深度学习版世界模型实现。

Ha & Schmidhuber 2018 的做法很优雅。他们把视觉输入用 VAE（变分自编码器）压成低维向量，再用 RNN（循环神经网络）预测下一帧向量加奖励，Agent（一个小的策略网络）只在这个压缩出来的“梦境“里训练。他们在赛车游戏（CarRacing-v0）和厄运游戏（VizDoom）两个环境里证明：一个完全在模型内“做梦“训练出来的 Agent，搬回真实环境也能玩得很好。

2018 这篇论文是当代世界模型研究的引爆点。之后所有主要的世界模型路线，无论是 Dreamer 系列、JEPA、Sora，还是 World Labs，都跟这条 Schmidhuber-Ha 的脉络多少有些渊源。Schmidhuber 本人后来也多次公开主张“世界模型才是 AGI 的关键“，跟杨立昆的 JEPA 路线某种程度上是同盟。

1.4 从2018到2024的沉寂与爆发

2018 这篇论文虽然在 RL 圈内被反复引用，但当时世界模型这条路没有真正火起来。整个 AI 圈那几年的注意力全部转向了一个完全不同的方向。

2018 年正是 LLM 路线刚开始爆发的一年。同一年 6 月 OpenAI 发布 GPT-1，10 月 Google 发布 BERT，Transformer 架构（2017）的能力开始被 scale up 验证。此后几年 AI 圈几乎全部资源涌向 LLM：GPT-2 （2019）、GPT-3 （2020）、PaLM （2022）、ChatGPT （2022.11）一路把 AI 推到大众语境的中心。世界模型被推到主流之外，Hafner 的 DreamerV1 和 DreamerV2 （2020）在 RL 小圈子里继续更新但没人关注。

2023 年 GPT-4 发布之后事情开始变化。LLM scaling 的边际收益开始递减，根本局限暴露出来：幻觉、不会推理、不能跟物理世界交互、不能持续学习。杨立昆从 2022 年起在 Twitter、演讲、Lex Fridman 播客上反复公开说“LLM 是死路“，主张做世界模型。同一时期 Hafner 在 Google DeepMind 把 DreamerV3 （2023.1 arXiv）做出来，第一次跨 150+任务用单套超参数。

真正引爆世界模型概念是 2024 年。2 月 OpenAI 发布 Sora，公开把它定位为“world simulator“（世界模拟器），这是世界模型这个概念第一次被推到公众视野。同月 Meta 发布 V-JEPA 是杨立昆路线第一次有大规模实现，Google DeepMind 发布 Genie 1，李飞飞创办 World Labs。一年之内四件大事，让“世界模型“从学术名词变成产业焦点。

2025-2026 资本和叙事继续放大。NVIDIA Cosmos 2025 年 1 月 CES 发布让硬件巨头进场，Meta IntPhys 2 （2025.6）把物理基准系统化，DreamerV3 2025 正式登 Nature。杨立昆 2025 年 11 月离开 Meta 创办 AMI Labs（2026 年 3 月拿 10.3 亿美元种子轮），李飞飞 World Labs 同期发 Marble（2026 年 2 月拿 10 亿美元融资）。Sora 2 （2025.10）发布后 5 个月被关闭，暴露视频生成派单位经济问题。

所以 2018 到 2024 中间发生的事可以一句话讲清楚：LLM scaling 触顶后，AI 圈需要找下一个 narrative，世界模型这个 30 多年的老概念被“重新发现“。Craik 1943 → Schmidhuber 1990 → Ha 2018 → 沉寂 6 年 → 2024 爆发。这条曲线一点都不平滑，1990 和 2018 的两次起步都没火，要等到 LLM 触顶才把这个老概念翻出来。

二、为了行动的世界模型

世界模型今天分成两大阵营。第一个阵营把世界模型当作“Agent 的内部工具“，模型主要给 Agent 自己用，运行在抽象或隐空间里，产出是给 Agent 用来预判后果的内部信号，不是给人看的画面。

这一阵营下面又分两派：决策规划派（基于模型的强化学习）和抽象推演派（JEPA / 联合嵌入预测）。两派共同点是把世界模型定位为“通往决策的工具“，区别在抽象的程度和具体架构。

2.1 决策规划派：DreamerV3和基于模型的强化学习

决策规划派是世界模型最老、最操作化的定义。主张：先学一个环境的动力学模型，让 Agent 在这个模型里“想象“未来轨迹、试错，再决定真实动作。本质是把昂贵的真实交互搬进脑内模拟，提高样本效率。

技术上的做法：把感官输入（图像、状态向量）编码成紧凑的隐状态，预测下一步隐状态和奖励，策略完全在“想象出来的“序列里训练。整套架构最初是 Ha & Schmidhuber 2018 给出的，后来 Danijar Hafner 在 Google DeepMind 把它系统化成 Dreamer 系列（DreamerV1、V2、V3）。

这条线今天的标杆是 DreamerV3。Hafner、Pasukonis、Ba、Lillicrap 的论文《Mastering Diverse Domains through World Models》2023 年 1 月放上 arXiv，2025 年正式登上 Nature。DreamerV3 最厉害的地方是单套超参数能跨 150 多个不同任务（从 Atari 游戏到机器人控制到 Minecraft），完全不需要为每个新领域重新调参。这是基于模型的强化学习领域多年追求的“通用算法“目标，DreamerV3 是第一个达到的。

DreamerV3 还有一个标志性成绩：它是第一个不需要人类示范就能在 Minecraft 里挖到钻石（游戏内最难的核心任务之一）的强化学习算法。这件事在 RL 社区被反复引用，因为之前所有方法都要靠人类玩家录像作为示范才能学会这个长程任务。

DreamerV3 的目标和衡量标准也很操作化。这一派不关心模型能不能“还原真实物理“，只看 Agent 在模型里规划出的动作回到真实环境能不能完成任务。规划成功率、任务完成率、样本效率，是这一派的硬指标。够用来规划即可，不要求模型生成的画面好看或物理上严格正确。

这种“够用主义“是这一派的特征也是局限。Dreamer 系列在结构化环境（游戏、模拟器）里效果很好，但在开放世界、长程任务、真实物理这些场景里依然吃力。从决策规划派出发能不能爬到通用世界模型，是个开放问题。

2.2 抽象推演派：JEPA和杨立昆的AMI Labs

抽象推演派是另一条往内走的路线，主张是杨立昆长期推动的联合嵌入预测架构（Joint Embedding Predictive Architecture，JEPA）。

JEPA 的主张：在抽象表征空间预测“状态会怎么演化“，跳过像素层面的画面生成。具体做法是对输入做编码，在表征空间里做带掩码的预测（mask + predict），完全不做像素重建。

杨立昆反复强调这是跟生成式路线的根本分歧。在他看来，靠生成逼真像素来理解世界是死路。模型把大量算力花在跟任务无关的视觉细节上（树叶怎么摇、光影怎么反射），反而抓不住真正重要的因果与结构。JEPA 强调忽略无关细节，只抓住能影响后续状态演化的关键因果信息。

Meta 在杨立昆主导下做了 V-JEPA 和 V-JEPA 2 两代视觉版 JEPA。这条线在直觉物理基准（如 IntPhys 2，下面第四章讲）上表现比像素生成式模型要稳一些。

但杨立昆跟 Meta 的合作 2025 年走到了尽头。2025 年 11 月 19 日他正式宣布离开 Meta，跟 Alex LeBrun 一起创办 Advanced Machine Intelligence Labs（AMI Labs，杨立昆任 Executive Chair，LeBrun 任 CEO），专门做“物理世界模型“。2026 年 3 月 AMI Labs 完成 10.3 亿美元种子轮融资，pre-money 估值 35 亿美元，由 Cathay Innovation、Greycroft、Hiro Capital、HV Capital 和 Bezos Expeditions 等共同领投。

杨立昆在离开 Meta 时的公开声明很直接：他离开是因为不想继续被产品时间表绑架，要专心做“通往人类水平 AI 的研究“。AMI Labs 的赌注很明确：JEPA 路线是世界模型的正解，生成式视频路线（Sora、Cosmos 那一拨）是死路。这笔 10 亿级的种子轮是 JEPA 路线第一次有充足的资本独立于 Meta 跑下去。

三、为了呈现的世界模型

世界模型的第二大阵营追求的是“给人看的世界“。这一阵营的产出本身就是世界的呈现，可以看的视频，或者可以进入的 3D 空间。模型的“成品“是世界的呈现，不是内部决策的中间变量。

这一阵营也分两派：视频生成派（以 2D 视频为载体）和空间智能派（以 3D 为载体）。商业上两派最近一两年烧的钱最猛，资本对“给人看的世界模型“显然更有信心。

3.1 视频生成派：Sora、Cosmos、Genie

视频生成派的主张：训练模型生成视觉逼真、且看起来符合物理的视频，把“能生成连贯世界的视频模型“本身当作一种世界模拟器。

技术上以扩散模型和自回归模型为主，训练目标是预测像素或帧。模型从海量视频（YouTube、电影、游戏录像）里学习世界的外观和动态规律。这条路在 2024-2025 年出了几个重要作品。

OpenAI 的 Sora 2024 年 2 月公布、2024 年 12 月正式发布。Sora 用的是 diffusion transformer 架构（DiT），跟 Stable Diffusion 和 DALL-E 3 同源但 scale up 到视频。能生成 60 秒级别的高清视频，物理上不完美但视觉冲击力很大。OpenAI 发布时 CTO Mira Murati 公开把 Sora 定位为“世界模拟器“（world simulator），是 OpenAI 通往 AGI 路线图里的关键一步。Sora 的训练成本 industry estimate 在 1 亿美元以上，训练数据是数百万小时视频。

但 Sora 的商业故事 2026 年急转直下。2025 年 10 月 OpenAI 发布 Sora 2 加同名社交 app，用户峰值约 100 万，很快跌到不到 50 万。app 每天烧约 100 万美元（视频生成的 GPU 成本太高），单月营收最高时只有约 54 万美元。2026 年 3 月 24 日 OpenAI 宣布关闭 Sora，4 月 26 日 web 和 app 体验正式关闭，9 月 24 日 API 也将关闭。OpenAI 跟 Disney 的 10 亿美元合作也跟着死了，Disney 是关闭公告前不到一小时才被通知。Sora 的关闭对“视频生成派当世界模型“这条路是个相当重的打击。它说明消费级视频生成的单位经济在当前 GPU 成本下还跑不通，且在 OpenAI 内部的资源分配里，Sora 跟 Codex、GPT-5.5 这种企业级高毛利产品比起来被判出局。这件事对 Cosmos 和 Genie 这条路有警示意义，但 NVIDIA 和 Google 的市场定位跟 OpenAI 不一样（不直接做 C 端视频），暂时还在跑。

NVIDIA Cosmos 2025 年 1 月 CES 公布，定位是“物理 AI 的世界基础模型“（World Foundation Models for Physical AI）。Cosmos 主打给机器人和自动驾驶生成训练数据，不做消费级视频生成。NVIDIA 的策略是把 Cosmos 跟 Omniverse（3D 仿真平台）打通，做端到端的“合成数据加物理引擎“基础设施。这是 NVIDIA 从 GPU 卖家往 AI 模型提供方迁移的重要一步。

Google DeepMind 的 Genie 系列走的是另一个方向。Genie 1（2024 年 2 月）能从一张图片生成可交互的 2D 游戏环境，Genie 2（2024 年 12 月）扩展到 3D 环境，能根据键鼠输入生成下一帧视频，让用户“玩“一个不存在的游戏。Genie 系列把“世界模拟器“跟“可玩游戏“做成了一个事情，技术上是把视频生成跟实时交互结合起来。

还有 Veo（Google）、Wan（阿里）、可灵（快手）、Sora 2（OpenAI 2025）等一批可生成或可交互的视频/游戏世界模型陆续推出。这一派的衡量标准是视频观感和物理合理性，最近一两年争议也最集中（见下面第四章）。

3.2 空间智能派：World Labs和Marble

空间智能派的主张：世界的本质是三维的，应让 AI 直接感知、生成、并能在其中交互的 3D 场景，不应停留在二维视频。

这条线的代表是李飞飞（Fei-Fei Li，Stanford AI 实验室前主任、ImageNet 之母）2024 年创办的 World Labs。李飞飞用“空间智能“（spatial intelligence）这个词来定义这条路线，主张 Agent 不光要识别像素，还要理解空间关系、能在 3D 空间里推理和行动。

World Labs

World Labs 2025 年 11 月发布了第一款商业产品 Marble。Marble 跟 Sora 这类视频生成最关键的区别是：它产出的是 persistent（持久的）3D 环境，可以下载、可以编辑、可以在里面自由移动。用户输入文本、图像或视频，Marble 生成一个完整的 3D 世界，可以导出为 Gaussian splats、mesh 或视频三种格式。

Marble 底层用的 Gaussian splatting 是 2023 年 Inria 团队提出的新型 3D 表征方法，能在保持高质量 photo-realistic 渲染的同时支持实时交互，比传统 mesh 加 texture 路线快 10 到 100 倍。这个技术选择让 Marble 在质量和可用性之间找到了一个不错的平衡点。

商业上 World Labs 跑得很快。2024 年成立后第一轮 230 million 美元种子，2026 年 2 月又完成 10 亿美元 Series B，累计融资 12.3 亿美元，由 NVIDIA、AMD、Fidelity Management、Autodesk、Emerson Collective、Sea 等投资。这个规模在 AI 创业公司里属于第一梯队，跟 AMI Labs 的 10 亿种子轮形成有趣对照。

李飞飞的判断跟杨立昆又不一样。她认为视频生成路线（Sora 等）和决策规划路线（Dreamer 等）都只抓住了世界的一面。真正的世界模型必须是 3D 的、可交互的、持久的。Marble 是这个判断的产品落地。

3.3 小结：为什么四派难直接比较

把上面两组放在一起就能看出，“世界模型“这一个词，背后其实是四套定义、四种衡量标准：

决策规划派（DreamerV3）：规划成功率、任务完成率
抽象推演派（JEPA / AMI Labs）：因果一致性、下游任务表现
视频生成派（Sora、Cosmos、Genie）：视频观感、物理合理性
空间智能派（World Labs Marble）：3D 重建/生成的保真度、可交互性

四派的优化目标根本不同。“向内“两派追求够用来决策，“向外“两派追求够逼真或够可交互。在自家衡量标准下排名也不同。让 Dreamer 跟 Sora 比谁更强是鸡同鸭讲，让 V-JEPA 跟 Marble 比也是。

这就是为什么 2024-2026 年关于“世界模型“的讨论这么混乱。大家说同一个词，指的根本是不同的东西。读到任何一篇讲“世界模型“的文章，第一件事应该是看作者站在哪一派的立场上。不同派别的判断标准不一样，得分高低没有跨派可比性。

要承认一句：上面 4 派是当前最主流的分类，覆盖了头部玩家（杨立昆、李飞飞、OpenAI、Google DeepMind）。但严格说还有一些细分方向值得 acknowledge：Wayve GAIA 系列（2025 年 12 月发布 150 亿参数的 GAIA-3）和 Tesla 在做自动驾驶专用的世界模型，Google DeepMind 的 SIMA 和 Physical Intelligence 的π0 系列在做机器人具身智能专用的世界模型，Yoshua Bengio 主张 Bayesian 概率路线（跟 JEPA 是另一种“在抽象空间预测“的方式），Genesis 等项目在做物理引擎跟生成模型混合的路线。学术界两份 2025 年综述用的分类轴跟我这 4 派也不一样。本文聚焦最主流的 4 派建立基本图景，这些细分方向有兴趣可以自己查。

四、核心争论：模型是“懂“世界，还是只学了表面相关

四派的优化目标不同，但有一个争论是大家共同关心的：这些模型抓到的，究竟是真实的世界动态和因果，还是只是表面的统计相关？

这个问题不光是哲学讨论，是有实证检验的。研究者已经开发了一批“直觉物理基准“（intuitive physics benchmarks），专门用来探测模型对物理常识的理解。这些基准源自婴儿心理学的“违反预期“（violation of expectation）范式：给被试者看一个“违反物理“的视频，看他能不能识别出“这不应该发生“。

Meta 2025 年 6 月发布的 IntPhys 2 是这条线最新的代表作品。论文作者 Florian Bordes、Quentin Garrido、Justine Kao、Adina Williams、Michael Rabbat、Emmanuel Dupoux 团队设计了一套基于“违反预期“的视频基准，测试模型对四条物理原则的理解：

永恒性（Permanence）：物体不会无故消失
不变性（Immutability）：物体的颜色、形状不会无故变化
时空连续性（Spatio-Temporal Continuity）：物体只能沿连续轨迹运动
固体性（Solidity）：固体物体不会穿过彼此

这四条原则在婴儿心理学里被认为是人类从出生几个月就开始建立的“核心知识“（core knowledge）。IntPhys 2 把它们做成一系列“可能事件 vs 不可能事件“的视频对比，让模型预测哪个是“违反物理的“。

结果是这样的：当时所有主流视频模型（包括 V-JEPA 2、Cosmos 和一些闭源模型）在 IntPhys 2 上的表现接近随机水平（50%左右），人类近乎满分。模型能生成视觉逼真的视频，但对最基础的物理常识理解很弱。这是个相当严肃的结论，因为它直接挑战了“生成式视频模型懂物理“这个产业界普遍假设。

类似的基准还有 Physics-IQ（DeepMind 2025）和 VideoPhy（UCLA 2024），也得到类似结论：生成视频常违反基本物理规则，模型抓到的可能更多是“统计上像物理“，不是“真懂物理“。

但这一面也有反例。一些实证研究显示，抽象/隐空间预测式模型（如 V-JEPA 路线）在直觉物理基准上比纯像素生成式模型更稳，因为前者强制模型在“状态演化“层面学习，过滤掉了纯视觉的“装饰性细节“。也有研究观察到随模型规模扩大，物理理解有所改善，所以“是否最终会涌现出物理理解“这件事还没有定论。

焦点客观摆出：相关 vs 因果、表面逼真 vs 真实动态，这两条轴上世界模型领域至今没有共识。杨立昆一派把 IntPhys 2 这种基准当作“生成式路线死刑判决“，OpenAI 等机构曾经把它当作“现阶段技术局限、scale up 能解决“。但 2026 年 3 月 OpenAI 关掉 Sora（消费级视频）之后，“scale up 能解决“这个立场的实际承诺力明显变弱了。

五、方法论：还没找到 Transformer 那种“被筛选出来“的架构

第二、三章讲了 4 派各自怎么做。从方法论看，所有这些架构都还是工程拼接，没有一个被反复验证、业内一致采用的“标杆架构“。这是世界模型领域跟 LLM 比最不成熟的地方。

5.1 Transformer 的对照：从百家争鸣到 Decoder 通杀

2017 年 Attention is All You Need 最初提出的 Transformer 是完整的 Encoder-Decoder 架构，为机器翻译设计：Encoder 读源语言句子做理解，Decoder 生成目标语言句子。但这套完整架构反而不是今天 LLM 的主流形态。

2018 年 Google 的 BERT（Devlin et al.）把 Transformer 的 Encoder 部分单独拿出来，加 masked language modeling 任务（随机遮住 15% 的词让模型预测），做出第一个强大的双向语言理解模型。BERT 在 GLUE、SQuAD 等 NLP 基准上横扫，成为 2018-2020 年 NLP 圈最热的架构。同期出现一堆 BERT 变体：RoBERTa、ALBERT、ELECTRA、XLNet 等。

同年 OpenAI 的 GPT-1 拿 Transformer 的 Decoder 部分，做单向语言生成。GPT-1 当时反响远不如 BERT。但 2019 年的 GPT-2、2020 年的 GPT-3、2022 年的 ChatGPT 一路 scale up 后，Decoder-only 路线开始反超：用同一个生成式架构既能做理解也能做生成，in-context learning 能力让 fine-tuning 都不再必需。

今天主流 LLM 几乎全部是 Decoder-only：GPT 系列、Claude、Gemini、Llama、Qwen、DeepSeek 全部。BERT 风格的 Encoder-only 模型缩到 embedding 和分类这种 niche 任务（sentence-BERT、E5 等）。完整 Encoder-Decoder 架构（T5 那种）几乎不用了。还有一堆中间变体（XLNet、ELECTRA、ALBERT、Reformer、Performer、Longformer 等）大部分今天都不再使用。Mamba 和 SSM（2023-2024）试图从根本上替代 Transformer 也没成功。

这就是“被筛选出来“的典型路径：百家争鸣（Encoder vs Decoder vs 完整版 vs 各种变体）+ 大量复现验证 + 优胜劣汰 + 最后收敛到 Decoder-only。Transformer 不是 2017 年那一篇论文一锤定音的“正确架构“，是从一堆候选里花了 5 年时间跑赢的那一个。期间至少有几十种 Transformer 变体被淘汰，几个根本不同的架构方向（如 Mamba）被证明不如它。

5.2 世界模型现在还在凑

回头看世界模型的几个主流架构，每一个都是几个不同传统的组件拼接：

DreamerV3 = VAE（变分自编码器）+ RNN + Actor-Critic 强化学习 + Imagined Rollouts。每个组件来自不同年代不同领域
JEPA = Encoder + Predictor + Mask 训练 + 防表征塌缩的工程技巧（VICReg、EMA 等）
Sora（DiT 架构） = Diffusion + Transformer + Patches，本质上把三个已有方法粘起来
Marble = Gaussian Splatting + Diffusion + 3D 表征，几个 2023 年才成熟的方法的组合

每个组件都是过去几年某个领域火过的方法，被工程师挑出来粘成新架构。

关键问题是：没有理论告诉你该怎么拼。为什么 Sora 用 Diffusion + Transformer + Patches 而不是 Diffusion + LSTM + Pixels？为什么 JEPA 用 mask + predict 而不是 contrastive learning？为什么 DreamerV3 用 RNN 而不是 Transformer 做隐状态预测？这些选择背后没有“理论上正确“的论证，只有“这几个组件最近火、单独 work、拼起来试试看“的工程直觉。

这种“凭经验拼“的做法在 Transformer 时代是被大量复现验证 buffer 住的，一篇 paper 出来后有几百个团队复现、改造、对比。但世界模型领域目前几乎没有这种生态。Sora 是闭源的，外面没法复现。Cosmos 部分开源但训练成本估计几千万美元，没几家能跑。JEPA 开源但效果跟 Sora 完全不同范式，社区不知道该相信哪个。各家公司各自做各自的，复现工作很少。

更深的问题是不知道效果如何。IntPhys 2 只测物理常识，VBench 和 VideoMME 测视频生成质量，机器人 benchmark 又是另一套（ManiSkill、RoboCasa），没法跨架构比。Sora 在 VBench 上分数好不代表它在机器人控制上 work，V-JEPA 在 IntPhys 2 上稍好也不代表它能拍出好视频。每家自定义评测，互相打分牌意义有限。

所以现在大家做的事情本质上是凭直觉押架构，搭出来发布，等 6-24 个月看市场和基准反馈。Sora 2024 年 2 月发布时所有人都说震撼，18 个月后 OpenAI 自己关掉。Marble 2025 年 11 月发布刚 6 个月，效果好不好还要 2-3 年才能验证。AMI Labs 拿了 10 亿种子轮，但产品还没出，2-3 年后才知道 JEPA 这条路到底能不能走通。

还有几个次级支轴（是否把物理引擎写进模型、用 2D 视频还是原生 3D 表征）也没共识。每个选择都是工程拼接，不是被筛选出来的。整个领域目前还是“试错阶段“，远没到“哪个架构是正解“的阶段。

“凑出来“的架构还有一个直接后果：不知道能不能持久。当前世界模型在短时间窗口（几秒到几十秒）里看起来都还能跑，但时间一拉长（几分钟以上），误差会一帧一帧累积，物理一致性慢慢崩。Sora 生成 60 秒视频开头几秒像样，到 30-40 秒物体形变、穿模就开始多起来。DreamerV3 在 Atari 这种短回合任务上很强，但在长程开放任务上拖得越久预测越漂。这是凑出来的架构没经过“长程稳定性“这个维度筛选的副作用，目前没人知道怎么从架构层根治。这个挑战在第七章会作为开放问题再展开。

5.3 杨立昆 EBM 的例子：押架构不一定能押对

这一面有个非常具体的反例。

杨立昆从 1990 年代起长期主张 Energy-Based Models（EBM，能量模型）这条架构路线：训练一个能量函数 E(x)，让正确数据点的能量低、错误的高，预测时找能量最低的点。2006 年他发表的 A Tutorial on Energy-Based Learning 把 EBM 系统化成一个完整框架，是 EBM 领域的经典文献。

杨立昆推了 EBM 二十多年，押的赌注是这条路最终会成为深度学习的主导生成模型架构。结果：EBM 没成主流。生成模型这一片被 GAN（2014）、VAE（2013）、Diffusion Model（2020 起）三条路抢走，EBM 一直是个相对小众的支流（虽然 Score-based generative models 跟 EBM 数学上有联系，但实际架构不叫 EBM）。

杨立昆 2022 年起转推 JEPA，本质上是把 EBM 的“能量“换成“表征空间预测“，绕开 EBM 训练难（partition function 难算）的工程问题。JEPA 是 EBM 的工程降级版，同一个思路换个更好训练的形式。

这个故事说明一件事：即使是杨立昆这种深度学习教父级人物，凭直觉押架构也未必能押对。EBM 押了 20 多年没赢，他自己最后改换 JEPA。今天世界模型领域的几个新架构（DreamerV3、JEPA、DiT、Marble），有几个会像 Transformer 那样最终胜出、有几个会像 EBM 那样冷下去，目前完全不知道。

5.4 主轴选择本质上是赌博

“生成像素 vs 抽象表征“这条主轴选择本质上是赌博。没有理论证明哪条对，只是不同人凭经验和直觉押宝。

Sora 押生成像素，2026 年 3 月被关闭，没赢。V-JEPA 押抽象表征，目前在直觉物理基准上稍好，但远没到全面胜出。Marble 押 3D 表征，产品刚出，效果还要看。杨立昆 EBM 押了 20 年没赢，现在押 JEPA 也未必能赢。

整个领域目前更像 2014-2017 年的 NLP 圈，那时候 LSTM、CNN、Attention 各种架构混战，没人知道最后 Transformer 会通杀。世界模型可能还要 3-5 年才能筛选出主导架构，也可能永远不会（不同应用场景的世界模型本来就不一样，机器人控制跟视频生成跟 3D 建模可能各有最优架构）。

要记住的判断：今天哪个最火（Sora、Marble、AMI Labs），不等于哪个最后会赢。架构选择必须经过大量尝试和复现验证才能定下来，不能靠某个人拍脑袋。

六、认识论视角：模型与现实的距离

第四章和第五章讨论的都是“具体怎么做、能不能做好“。但要看懂世界模型这场争论，还需要一个更高一层的认识论视角，理解任何模型跟世界之间本质上的距离是什么。这一章给读者一个看待整个领域的框架，不给结论。

6.1 表征不是本体

康德（Immanuel Kant）在《纯粹理性批判》（Kritik der reinen Vernunft，1781）里提出过一个核心区分：物自体（Ding an sich）和现象（Erscheinung）。康德的判断是：我们认识不了事物本身，只能认识它呈现给我们感官与理性的那一面。19 世纪德国生理学家 Helmholtz 把这一观点带进自然科学，提出“知觉是大脑根据感官信号做的无意识推断“（perception as unconscious inference），从哲学桥接到了对大脑工作机制的研究。

李飞飞 2025 年 11 月发表的长文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》（从语言到世界：空间智能是 AI 的下一个前沿）开篇就引用了维特根斯坦《逻辑哲学论》（Tractatus Logico-Philosophicus，1921）的第一句话：“世界是一切发生的事情”（The world is everything that is the case）。紧接着她加了一句自己的引申：“世界不是由文字构成的”（The world is not made of words），用来论证 LLM 这条基于文字的路线天然有局限，要做世界模型必须超出文字层，进到空间和动态的层面。她还引用过维特根斯坦同一本书后面的“我的语言的界限意味着我的世界的界限“（the limits of my language mean the limits of my world），给空间智能这条路线找哲学根基。

这个区分对世界模型有直接意义。任何世界模型，无论多精确，都只是对世界的一个表征，不能等同于世界本身。Sora 生成的视频是世界的视觉表征，Dreamer 在隐空间预测的状态是世界的压缩表征，World Labs 的 Marble 生成的 3D 场景是世界的几何表征。三者都是表征，都不等于世界本身。

这个抽象的认识论命题在工程实践里有非常具体的暴露形态。Sora 生成的视频经常出现物理穿模（物体穿过墙）、对象凭空消失、影子方向不对、流体物理违反守恒，这些都是模型抓住了“视觉看起来像“但没抓住“实际物理规律“的证据。Meta IntPhys 2 (2025.6) 把这件事量化了：主流视频模型（包括 V-JEPA 2、Cosmos）在“违反预期“测试上接近 50% 的随机水平，人类近乎满分。自动驾驶世界模型在常见城市路况表现良好，放到雪天、暴雨、施工区、新城市这些训练分布外的场景，预测就明显崩。这些都是表征跟世界的距离的可见证据。

这是任何机器学习模型的本质约束，跟哲学诡辩无关。模型只能学习它接触到的数据呈现出来的规律，不可能直接接触“世界本身“。康德 1781 年说的这件事，维特根斯坦 1921 年又重新讲了一遍，对 2026 年的世界模型依然适用。

6.2 为什么是物理学家和数学家有话语权

“神经网络“和“神经科学”，两者名字虽然都有“神经“二字，但实际上是斑马和马的关系。神经网络是个数学结构（矩阵乘法、激活函数、反向传播、梯度下降），神经科学研究的是真大脑（生物神经元、突触、神经递质、脑区）。神经科学给 AI 的多是“神经元“这种借词和灵感，不是算法。Friston 的 free energy principle、Spelke 的婴儿核心知识、Rao & Ballard 的 predictive coding，都给了世界模型很好的修辞和命名，但真正让模型能跑的数学不来自神经科学。

最有信号的事是 2024 年诺贝尔物理奖颁给 John Hopfield 和 Geoffrey Hinton，理由是“用统计物理工具发明神经网络“。Hopfield Network（1982）是 Ising 模型加自旋玻璃的应用，Boltzmann Machine 直接借用热力学的 partition function，Sora 底层的 Diffusion Model 数学上是非平衡热力学加 Langevin equation。诺奖委员会选择用物理奖来认可深度学习，跳过了化学奖和生理学奖，这是个明确 statement：这个领域的数学根基长在物理和数学上，生物只是命名灵感。

所以物理学家和数学家在世界模型这个话题上有话语权。物理学过去 300 年的核心教训就一条：没有完备理论，每套理论都有适用边界。牛顿力学在高速下被相对论修正，在微观下被量子力学修正，今天最完整的物理图景（量子场论加广义相对论）在量子引力上仍然不兼容。物理学家不寻求“终极理论“，承认每个模型都是近似，在自己的边界内可靠就够了。

世界模型的适用边界很具体。自动驾驶世界模型在城市道路准，但火星表面、深海、未训练过的国家不可用。Tesla FSD 在加州训练数据多所以那里准，搬到印度新德里要重新训练。机器人世界模型在受控实验室抓杯子准，搬到家庭环境（背景杂乱、光线变化、物体姿态意想不到）就掉一半成功率。视频生成世界模型在 YouTube 风格的常见场景准，生成“猫骑独角兽穿越曼哈顿“这种训练分布外的组合就经常崩。物理学家几百年前就接受了“边界外失效“这件事，AI 这条线还在学。

6.3 工程上的标准是“够用“，给四派一个评判框架

工程跟科学的关键区别在这里。科学问“这是真的吗“，工程问“这够用吗“。

世界模型的工程目标在特定场景里给出靠得住的近似，不追求完美的宇宙副本。这条原则其实物理学早就实践了。牛顿力学算不了黑洞，但用它造桥、发卫星、算飞机轨迹完全够用，NASA 把人送到月球用的就是牛顿力学加少量相对论修正，不需要量子引力理论。世界模型也一样，机器人抓取的“够用线“跟自动驾驶的“够用线“跟手术仿真的“够用线“完全不同：机器人抓取需要厘米级精度但场景受控，自动驾驶需要米级精度但要处理动态环境，手术仿真需要毫米级精度且场景受控。不存在一个“通用够用线“。

这给四派之争一个出口。四派（决策规划 vs 抽象推演 vs 视频生成 vs 空间智能）很大程度上在争“哪个才是真正的世界模型“，但从认识论看这个问题问错了。更可操作的问法是：对某个具体任务，这个模型够不够好？ 评判从“是不是“转向“够不够用、在什么边界内有效“。

按这个框架重新看四派，每派都有自己的“够用区“和“失败区“。DreamerV3 在 Atari、Minecraft、机器人控制这种“离散动作 + 明确奖励 + 结构化环境“里够用，是第一个不需要人类示范挖到 Minecraft 钻石的算法。但放到开放世界、长程任务、连续动作的真实物理场景，依然吃力。Sora 在内容创作、广告、影视前期可视化上够用，1 分钟级高清视频质量震撼了消费市场。但商业模式没跑通（2026 年 3 月被关闭），物理一致性测试上接近随机水平。

Cosmos 在给机器人和自动驾驶生成训练数据上够用，NVIDIA 把它跟 Omniverse 仿真平台打通成端到端基础设施。但还没有公开案例证明用 Cosmos 训练出来的机器人比传统方法更强。Marble 在游戏世界、设计可视化、教学仿真上够用，产出可下载、可编辑的持久 3D 环境很有商业卖点。但发布刚 6 个月，物理交互（重力、碰撞、流体）的成熟度还有距离。V-JEPA 在因果推理、长程规划、直觉物理基准上比像素生成稳，但视觉质量和工程落地远不如生成式路线。

每一种都在自己的边界内有效，没有谁应该“打败“谁。把视频生成派跟 JEPA 派放到自动驾驶这一个具体场景里比较，可能反而能得出有用的结论。笼统地问“谁是真世界模型“几乎没意义。

“够用线“还有一个特别硬的维度值得单独点出：实时性。机器人控制循环要求毫秒级响应，自动驾驶决策要求 10-100 毫秒级，游戏渲染要求 16 毫秒（60 帧）以内。当前主流世界模型推理一次需要几秒到几分钟，离这些场景的实时门槛差 2-4 个数量级。Sora 生成 5 秒视频要十几分钟，Marble 生成一个 3D 场景要几分钟，Cosmos 在 GPU 集群上批量造数据没问题但单次实时推理同样吃力。够不够用在不同场景里差异巨大，实时性这条线很多模型现在过不去。这件事第七章会作为开放问题再展开。

6.4 可验证性问题

但这也带来一个新问题。如果世界模型的标准是“够用“，那怎么知道一个模型“够好“？

这是个跨学科难题，需要每个应用场景都有明确的基准和边界。第四章讲的 IntPhys 2、Physics-IQ、VideoPhy 是直觉物理这一面的基准，但机器人抓取、自动驾驶、手术仿真各自都需要专门的基准。而且要不光测平均表现，还要测边界外的表现（out-of-distribution generalization）。

更头疼的是不同基准之间结果常常打架。Sora 在 VBench（视频质量评测）上拿过当时最高分，但在 IntPhys 2（物理常识）上接近随机水平。同一个模型，“看起来好不好“拿满分，“懂不懂物理“不及格。生成式视频整体上也是这样：消费者觉得震撼的视频，物理学家一看到处是漏洞。这意味着评测体系本身还没有共识，评什么、按什么标准评、跨任务怎么比较，目前都没定。

自动驾驶领域稍微成熟一些，但也只成熟在“狭义场景“上。Waymo、Tesla、Wayve 各自有自家的 ODD（Operational Design Domain，运行设计域）定义，明确写出“这个系统在哪些条件下能用、哪些条件下不保证“。但 ODD 之外的 long-tail 场景（突发施工、儿童突然窜出、罕见天气）仍然是 fatal weak spot。机器人那边更早期，抓取成功率在受控实验室能到 95%+，搬到真实家庭环境直接掉到 50% 以下。目前还没有公认的“家庭机器人 benchmark“能跨厂商比较。

可验证性问题正好回到第四章的争论，也通向第七章的开放问题。世界模型的“够用线“在哪里、不同应用场景的边界怎么划，目前没有大家都接受的统一答案。要等到行业有 ImageNet 那种公认的标杆基准出现，才会有真正的横向可比性。在那之前，每家公司发布的“我们的世界模型很强“都要打折扣听。

七、现状与开放问题

这一章把前面散落的开放问题汇总成清单。其中长程一致性（第 5.2 节末尾铺过）和实时性（第 6.3 节末尾铺过）前面已经预告过，这里给出完整版。其它几个问题是产业层面的，前面没专门展开，一并列在这里。

世界模型 2024-2026 这两年从学术话题变成产业焦点。资本涌入的速度比研究突破还快。AMI Labs 2026 年 3 月一轮就拿了 10.3 亿美元，World Labs 累计 12.3 亿美元，Cosmos 背后 NVIDIA 直接全押，Google Genie 还在投入。但同期 OpenAI Sora 2026 年 3-4 月停掉了，是这条路上第一个大规模商业失败的案例，消费级视频生成的 GPU 成本至今跑不通单位经济。融资规模上世界模型已经成了一级火箭般的方向，但路线之间已经开始出现明显的成败分化。

应用方向也开始具体化：

机器人和具身智能：用世界模型生成大量合成数据，加速机器人在真实环境的训练。Cosmos 和 Marble 主打这条
自动驾驶：从 Tesla FSD 到 Wayve 到 Comma.ai 都在用世界模型做闭环仿真，减少对真实路测的依赖
游戏和元宇宙：Marble、Genie 这类直接产出可玩世界，Roblox 等大平台也在跟进
内容生成：Sora、Veo、可灵这类做视频创作，C 端商业模式已经清晰
科学仿真：分子动力学、气候模拟、流体力学等领域开始尝试用世界模型做加速器，DeepMind 的 GraphCast 是先驱

但公认的开放问题也很多。

统一定义和基准缺失。四派各说各话，没有一个统一的“世界模型 benchmark“能让大家在同一标准下比较。这件事 2025-2026 年开始有人尝试解决（IntPhys 2 是一个起点），但远没到 ImageNet 那种“全行业共认“的程度。

物理一致性。当前生成式视频模型在 IntPhys 2、Physics-IQ 等基准上接近随机水平。能不能通过更大模型加更好训练目标突破这层，业内意见分裂。杨立昆认为不行，Sam Altman 认为可以。

长程一致性和误差累积。世界模型在短时间预测（几秒到几十秒）上能做得不错，但预测时间一拉长（几分钟以上），误差会累积，物理一致性会崩溃。Marble 的 persistent 3D 路线某种程度上是在回避这个问题（生成一次后下载下来，不需要长程预测），但视频生成派和决策规划派仍需直面这个挑战。

实时性。世界模型要进入机器人、自动驾驶、游戏这些应用，必须实时运行。当前主流模型推理一次需要几秒甚至几分钟，离实时还很远。这一层是工程优化问题，但目前没看到突破性方案。

可验证性。怎么知道一个世界模型“够好“？需要一套跨场景的基准体系，目前还在起步阶段。

总体看，世界模型还在早期。路线之争尚未收敛，每一派都还有几年的发展空间。这场争夺最终会不会出现一个统一定义，还是像深度学习其它分支一样长期保持多条并行路线，目前都还不清楚。我个人的判断是后者的可能性更大，因为四派的优化目标和应用场景本来就不同。给机器人用的世界模型跟给电影厂用的世界模型，本来就该是两个东西，没必要硬要统一。

读完这篇你不会得到一个标准答案，但下次看到“世界模型“这个词时，至少能问一句：你说的是哪一派？

作者其它文章（选）

美国的犹太人和华人分别抢到了什么资源？详细分析
当物理遇上AI：深度学习里的物理元素（下）
细说美国的华人老钱家族
人工智能的工程全景（上）：硬件、电力、训练、推理
什么是Diffusion Model？图片视频生成模型全网最详细介绍
美国税收制度完全指南
当物理遇上AI：深度学习里的物理元素（上)
一文看懂美国的法律系统
教宗良十四世论人工智能（精华版）
廉颇老矣，尚能饭否：现代数学史（下）
一篇文章讲清楚美国的移民系统
大航海时代2的逆向工程实验
量子计算机有前途吗？
祖父积分学概论
我见青山多妩媚：二十世纪数学史（上）
一文讲清楚美国医疗系统
AI如何打进美国教育生态？
一篇文章看懂美国教育全生态
马斯克把xAI并入SpaceX，到底意味着什么？
Vibe Learning：AI时代，学习这件事被重新组织了
福特经济学和AI经济学
数学照妖镜：AI能发现新的数学定理吗？
一篇文章讲清大语言模型发展史
Vibe Reading：AI时代读书的系统化方法
长篇分析：Manus案折射出的中国AI创业生态
两万字科普：AI为什么会编程——原理、历史与未来
全网最详细的AI学习路线图

本文参考文献

Kenneth Craik (1943) The Nature of Explanation - Cambridge University Press经典
Ha & Schmidhuber (2018) World Models - arXiv当代世界模型引爆论文
Hafner et al (2025) Mastering diverse control tasks through world models - DreamerV3 arXiv版（2025年Nature正式发表）
Yann LeCun’s exit from Meta: TechCrunch coverage - TechCrunch
Yann LeCun AMI Labs founding: The Decoder - The Decoder
Fei-Fei Li’s World Labs raises $1B: SiliconRepublic - SiliconRepublic
World Labs launches Marble: TechCrunch - TechCrunch
Bordes et al (2025) IntPhys 2: Benchmarking Intuitive Physics Understanding - arXiv Meta IntPhys 2论文
IntPhys 2 GitHub repository - Meta Research
Bansal et al (2024) VideoPhy: Evaluating Physical Commonsense for Video Generation - arXiv UCLA VideoPhy 论文
Motamed et al (2025) Do generative video models understand physical principles? - arXiv INSAIT + Google DeepMind Physics-IQ 论文
OpenAI Sora - OpenAI官方
Why OpenAI really shut down Sora - TechCrunch 2026-03 Sora关闭分析
What to know about the Sora discontinuation - OpenAI Help Center官方关闭公告
NVIDIA Cosmos World Foundation Models - NVIDIA官方
Google DeepMind Genie - DeepMind官方
World Labs Marble - World Labs官方

相似文章

World Models Explained: What Every AI Is Missing

Reddit r/ArtificialInteligence

文章详细解释了世界模型的概念，将其与LLM对比，介绍了两大阵营（像素预测与意义预测）及Dreamer v3、GameNGen、Genie、JEPA等代表性工作，并讨论了在自动驾驶和机器人领域的应用，指出世界模型是物理AI的关键组件。

@drfeifei: https://x.com/drfeifei/status/2062247238143996275

X AI KOLs Timeline

Fei-Fei Li与World Labs团队提出了世界模型的功能分类法，区分了渲染器、物理引擎以及在强化学习循环中的其他组件，并论证空间智能是人工智能的下一个前沿。

@seclink: 机器人世界模型（全新维度，0 去重 = 全新信息）核心项目： - Awesome-WAM（OpenMOSS）：World Action Models 综合论文列表，含 DreamDojo（从人类视频学习的通用机器人世界模型） - awe…

X AI KOLs Following

介绍了两个机器人世界模型相关的项目：Awesome-WAM（OpenMOSS）收录了World Action Models和DreamDojo等论文；awesome-physical-ai整理了VLA模型、世界模型和具身基础模型论文合集（含NVIDIA Cosmos Predict2.5）。

@dotey: https://x.com/dotey/status/2053351712149135385

X AI KOLs Timeline

英伟达 Jim Fan 在 Sequoia AI Ascent 2026 上发表演讲，宣告 VLA 架构过时并提出世界动作模型（WAM）作为机器人新范式，介绍了 DreamZero、EgoScale 及神经仿真器 Dream Dojo 等关键技术。

@snowboat84: 补充说明一下，关于AI涌现出来的那些现象，scaling law、emergence、双重下降、表征几何，目前相关讨论的论文已经汗牛充栋。但这里有一个很大的问题：他们都在用计算机科学家的方式思考，而不是物理学家的方式思考。什么是计算机科…

X AI KOLs Timeline

作者评论当前AI研究过多使用计算机科学的思维方式而缺乏物理学方法，提出需要建立如'Cyber Space'的理想系统来奠定理论基础。

什么是世界模型？一个正在被争夺的概念

一、概念溯源：从心理学比喻到神经网络

1.1 1943年的概念雏形：Craik的“小尺度模型“

1.2 1960s符号AI时代：积木世界与SHRDLU

1.3 深度学习入场：Schmidhuber 1990 + Ha 2018

1.4 从2018到2024的沉寂与爆发

二、为了行动的世界模型

2.1 决策规划派：DreamerV3和基于模型的强化学习

2.2 抽象推演派：JEPA和杨立昆的AMI Labs

三、为了呈现的世界模型

3.1 视频生成派：Sora、Cosmos、Genie

3.2 空间智能派：World Labs和Marble

3.3 小结：为什么四派难直接比较

四、核心争论：模型是“懂“世界，还是只学了表面相关

五、方法论：还没找到 Transformer 那种“被筛选出来“的架构

5.1 Transformer 的对照：从百家争鸣到 Decoder 通杀

5.2 世界模型现在还在凑

5.3 杨立昆 EBM 的例子：押架构不一定能押对

5.4 主轴选择本质上是赌博

六、认识论视角：模型与现实的距离

6.1 表征不是本体

6.2 为什么是物理学家和数学家有话语权

6.3 工程上的标准是“够用“，给四派一个评判框架

6.4 可验证性问题

七、现状与开放问题

作者其它文章（选）

本文参考文献

相似文章

World Models Explained: What Every AI Is Missing

@drfeifei: https://x.com/drfeifei/status/2062247238143996275

@seclink: 机器人世界模型（全新维度，0 去重 = 全新信息） 核心项目： - Awesome-WAM（OpenMOSS）：World Action Models 综合论文列表，含 DreamDojo（从人类视频学习的通用机器人世界模型） - awe…

@dotey: https://x.com/dotey/status/2053351712149135385

提交意见反馈

@seclink: 机器人世界模型（全新维度，0 去重 = 全新信息）核心项目： - Awesome-WAM（OpenMOSS）：World Action Models 综合论文列表，含 DreamDojo（从人类视频学习的通用机器人世界模型） - awe…