世界模型与物理AI教程

arXiv cs.AI 2026/06/12 04:00 论文

world-models physical-ai tutorial survey reinforcement-learning foundation-models

摘要

本教程提供了一个统一的框架，将多种世界建模方法整合在一起，用于物理AI，涵盖了显式世界模型和隐式世界模型及其在预测、推理和规划中的作用。

arXiv:2606.12783v1 公告类型：新摘要：世界建模正在成为构建具备预测、推理和决策能力的智能系统的核心原则。一个核心区别在于显式世界模型和隐式世界模型：显式世界模型学习结构化动力学，用于基于推演（rollout）的推理和规划；隐式世界模型则通过在可扩展的学习表示中编码预测结构。这两种互补范式为物理AI在机器人、自动驾驶等领域提供了基础，使得在现实约束下超越反应式控制的智能成为可能。近期的基础模型进一步展示了通向统一系统的路径，整合了感知、预测和行动。尽管取得了快速进展，但在层级推理、长时域规划和自主目标形成等方面仍存在重大挑战，这些对于迈向通用人工智能至关重要。本教程提出了一个统一的框架，通过共享的预测结构将多样化的世界建模方法统一起来，并根据该结构的表示和利用方式进行区分。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:53

# 世界模型与物理AI教程 来源：https://arxiv.org/html/2606.12783 \(2026年6月5日\)

###### 摘要\. 世界建模正逐渐成为构建具备预测、推理与决策能力的智能系统的核心原则。其中，显式世界模型通过学习结构化的动力学以支持基于推演的推理与规划，而隐式世界模型则将预测结构编码于可扩展的学习表示之中。这两类互补的范式为物理AI（如机器人和自动驾驶领域）提供了基础，使智能体能够在现实约束下超越纯粹的反应式控制。近期基础模型的出现，进一步指向了集成感知、预测与行动的统一系统。尽管进展迅速，但在层级推理、长时程规划和自主目标形成方面仍存在重大挑战，这些对于迈向通用人工智能至关重要。本教程呈现一个连贯框架，通过共享的预测结构统一多样化的世界建模方法，并根据此类结构的表示与利用方式加以区分。世界模型，物理AI，基础模型，通用人工智能，规划与推理，预测性表示学习 ††copyright:acmlicensed††journalyear:2026††doi:XXXXXXX.XXXXXXX††journal:CSUR††journalvolume:58††journalnumber:4††article:111††publicationmonth:8††ccs:General and references Surveys and overviews††ccs:Computing methodologies Knowledge representation and reasoning

## 1. 引言

人类生活在一个由结构化规律（涵盖物理、社会和因果动态）支配的世界中。为了在这样的环境中有效运作，人类会持续预测自身行动带来的后果(Johnson-Laird,1983 (https://arxiv.org/html/2606.12783#bib.bib1))。这种预测能力根植于通过经验形成的内部世界模型。借助这一模型，人类可以想象未来的结果，规避潜在的危险行为，并在有限试错下适应环境。因此，智能本质上并非依赖纯粹的反应性行为，而是基于对世界结构与动态的内化模型进行预测和判断。

强化学习（RL）长期以来是人工智能中序列决策的核心框架，它将智能体通过与环境的试错交互来学习行动的过程形式化(Sutton and Barto,2018 (https://arxiv.org/html/2606.12783#bib.bib2))。在高度复杂和不确定的环境中，有效的决策不仅需要对当前状态做出反应；智能体必须预测其行动的远期后果，并在长时程上进行推理。虽然RL为这类问题提供了原则性的表述，但经典方法通常依赖于与环境的直接交互以及任务特定的奖励信号。因此，它们往往需要大量数据，跨任务泛化能力有限，并且在深度探索不切实际的长时程或安全关键场景中表现困难。因此，有效的解决方案需要赋予智能体推理长期后果、想象未来轨迹、并减少对昂贵真实世界交互依赖的机制。

世界模型作为一个关键概念出现，用于解决这些局限性，它赋予智能体一个关于环境动态的内部表示(Ding and others,2025 (https://arxiv.org/html/2606.12783#bib.bib7))。通过学习世界如何随行动而演变，智能体可以想象未来的推演，评估不同行为，并在不纯粹依赖真实世界交互的情况下进行规划。这一思想深深扎根于基于模型的强化学习(Moerlandet al.,1983 (https://arxiv.org/html/2606.12783#bib.bib6))，其中显式的转移模型被用于支持规划和模拟。近期的进展扩展了这一范式，通过学习丰富的潜在动态模型，使其能够扩展到高维观测，从而使智能体能够进行想象、反事实推理和高效学习。在这个意义上，世界模型为在序列决策系统中集成预测、规划和泛化提供了统一机制。

尽管进展迅速，“世界模型”一词在文献中的使用并不一致。传统上，它指的是环境动态的显式模型，支持推演、规划和反事实推理。近来，该词也被更广泛地用于描述隐式内部表示，这些表示捕捉预测规律，但不暴露独立的动态函数。这种概念上的模糊性模糊了不同方法之间的界限，使新手难以理解该领域，也使从业者难以跨领域比较方法。因此，需要一份清晰且系统性的教程来组织现有方法，澄清术语，并强调不同世界建模范式下的关键设计选择。

在本教程中，我们聚焦于显式世界模型作为清晰的概念起点，并以此建立关于世界建模如何支持预测、规划和学习的直觉。我们解释建模环境动态意味着什么，为什么这类模型有用，以及不同的设计选择如何影响智能体的行为和能力。隐式表示与显式模型一并介绍，帮助读者理解两者的优势和局限性。本教程并非试图穷尽所有现有方法，而是强调核心概念、说明性例子和统一原则。材料组织逐步引导读者从基本思想到更高级的主题，为理解世界模型的多样化格局提供结构化的路径。

超越概念基础，本教程还探讨了世界模型在物理AI中的作用——即智能体具身化，并通过感知和行动与物理世界交互。在这样的设定中，世界模型不仅仅是抽象的预测器，而是在扎根感知、推理动力学以及在物理约束下协调长时程行为方面发挥实际作用(Fung and others,2025 (https://arxiv.org/html/2606.12783#bib.bib18))。我们阐释世界模型如何使具身智能体能够预测行动后果，执行基于想象的规划，并在真实世界交互昂贵或危险时安全高效地学习。通过将世界建模技术与机器人学和自动驾驶等物理AI应用联系起来，本教程展示了核心思想如何从算法表述转化为真实世界的智能行为。

尽管已有一些综述性论文回顾了世界模型或基于模型的强化学习的特定方面，但大多数现有工作主要侧重于编目方法和实证结果(Ding and others,2025 (https://arxiv.org/html/2606.12783#bib.bib7); Kong and others,2025 (https://arxiv.org/html/2606.12783#bib.bib19); Zhu and others,2024 (https://arxiv.org/html/2606.12783#bib.bib20))。相比之下，系统性地建立直觉、澄清核心概念并引导读者理解基本设计选择的教程式处理仍然匮乏。此外，据我们所知，尚无教程在统一概念框架内共同审视世界模型及其在物理AI中的作用。通过明确将世界建模原则与机器人学和自动驾驶等具身设置联系起来，本教程填补了文献中的一个重要空白。我们相信，这种整合视角——连接概念基础、算法表述和物理世界应用——是本教程的一个关键优势。

本文的其余部分组织如下。第2节介绍世界模型的基础知识。第3节回顾用于潜在动力学学习和规划的显式世界模型。第4节讨论基于大规模表示学习的隐式世界模型。第5节将这些概念扩展到机器人学和自动驾驶中的物理AI。第6节讨论通往AGI的路径和挑战。最后，第7节总结全文。

## 2. 世界模型基础

世界模型描述世界如何随时间演变，以及行动如何影响未来结果。这些思想与人类认知密切相关，在人类认知中，预测和想象未来结果的能力在智能行为中扮演核心角色。在机器学习的主要范式中，强化学习（RL）为在人工智能体中研究世界模型提供了自然框架。本节中，我们回顾RL的基础知识，并利用该框架介绍世界模型的操作原理和设计空间。

### 2.1. 人类认知中的世界模型：动机

图1展示了一个熟悉但有力的例子，说明人类如何依赖世界模型超越直接感知进行推理(Hawkins,2018 (https://arxiv.org/html/2606.12783#bib.bib3); Quirogaet al.,2005 (https://arxiv.org/html/2606.12783#bib.bib8))。从一张跳水运动员腾空而起的单独快照中，人类观察者可以推断出场景中未观察到的方面，例如平台下方是否有泳池，即使它位于当前视野之外。基于先前经验，观察者可以进一步预测接下来一两秒场景将如何展开：摄像机视角下移，运动员入水，随后出现标志性的水花。同时，同样的世界模型支持反事实推理——如果下方没有水，观察者会立即认识到相同的行动会导致灾难性后果。此外，运动员姿势和身体对齐的细微线索使有经验的观察者能够预判表演质量，甚至推测该跳水可能获得高分。这些同时发生的推断、预测和评估并非可直接从图像中观察到，而是源于一个内化的模型，该模型编码了物理动态、因果后果以及世界中的任务特定规律。

参见说明图1. 通过世界模型从单一局部观察中推断出的多重想象性预测（来源：Agência Brasil, CC BY 3.0）。

世界模型

虽然图1直观地展示了人类如何超越直接感知进行推理，但这些能力可以通过推理的层级视角更系统地理解，如图2所示(Pearl,2009 (https://arxiv.org/html/2606.12783#bib.bib4))。在最基本层面，人类利用关联规律观察世界中的相关性，从而能够预测在给定当前情境下接下来可能发生什么。在被动预测之外，人类在干预层面进行推理，在心理上模拟如果采取特定行动世界将如何演变。这使他们能够评估替代行动并在行动前预判其后果。在最高层面，人类进行反事实推理，考虑在世界或自身行动发生假设性改变时结果会有何不同。重要的是，这些层级并非孤立的阶段，而是在一个统一的内部世界模型中共存并交互。因此，图2所示的层级结构提供了一个概念框架，用于理解世界模型如何支持人类认知中的预测、规划和想象，并直接激励人工智能体中世界模型的设计。

参见说明图2. 世界模型支持的层级人类推理的概念性说明，受Judea Pearl因果层次启发（改编自https://web.cs.ucla.edu/~kaoru/3-layer-causal-hierarchy.pdf）。

Judea Pearl

### 2.2. 强化学习与序列决策

RL使用马尔可夫决策过程（MDP）框架形式化序列决策问题(Sutton and Barto,2018 (https://arxiv.org/html/2606.12783#bib.bib2))。MDP提供了对智能体如何随时间与环境交互以及其行动如何影响未来状态和奖励的数学描述。该表述作为定义和研究世界模型的基础设定。

MDP由元组\( \mathcal{S}, \mathcal{A}, \mathscr{r}, \gamma \)定义，其中\(\mathcal{S}\)表示状态空间，\(\mathcal{A}\)表示动作空间，\(\mathscr{r}(s,a,s')\)表示奖励函数，\(\gamma \in [0,1]\)表示折扣因子。在每个时间步\(t\)，智能体观测到一个状态\(s_t \in \mathcal{S}\)，根据策略\(\pi(a_t|s_t)\)选择一个动作\(a_t \in \mathcal{A}\)，然后环境转移到新状态\(s_{t+1}\)并发出奖励\(r_t\)。图3(a)展示了这一过程。状态转移由环境动力学控制，该动力学定义了概率分布\(p(s_{t+1}|s_t, a_t)\)。

参见说明图3. (a) 标准MDP与(b)配备世界模型的智能体之间的比较。在(b)中，环境动态通过学习组件\(E, H, F, D\)部分内化，从而实现内部模拟和想象推演。

MDP和世界模型

RL中的一个关键概念是轨迹，它表示智能体与环境之间的一系列交互：\(\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \cdots, a_{T-1}, r_{T-1}, s_T)\)¹¹¹在本文中，轨迹指的是通过与真实环境交互生成的转移序列，而推演则指由世界模型或规划过程在潜在空间中想象或模拟的转移序列。。轨迹是通过从策略中重复采样动作、从环境动力学中重复采样状态直至达到终止状态而生成的。算法1展示了在MDP中生成轨迹的标准过程。从环境中采样的初始状态开始，智能体交替使用当前策略选择动作并接收状态转移。这个交互循环构成了RL中的基本数据生成过程。

输入：MDP环境env和策略网络\(\pi_\theta\)
输出：轨迹\(\tau\)
state ← env.reset();
while *True* do
    action ∼ \(\pi_\theta\)(state);
    state1, reward, done ← env.step(action);
    state ← state1;
    if *done* then
        break;

算法1 从环境生成轨迹

RL的目标是找到最优策略\(\pi_{\theta_*}\)，使轨迹上的期望累积奖励最大化。期望累积奖励通常表示为\(\mathbb{E}_{\tau \sim \pi_\theta}\left[ \sum_{t=0}^{T-1} \gamma^t r_t \right]\)，其中\(T\)表示轨迹长度。算法2总结了用于策略优化的RL通用结构。智能体使用当前策略重复生成轨迹，利用收集的数据评估性能，并相应地更新策略参数。

输入：MDP环境env
输出：最优策略网络\(\pi_{\theta_*}\)
...

世界模型与物理AI教程

相似文章

World Models Explained: What Every AI Is Missing

物理可行的世界模型：为查询条件化具身智能辩护

机器人学习中的世界模型：全面综述

@drfeifei: https://x.com/drfeifei/status/2062247238143996275

世界模型：架构、方法、推理范式与应用的全面综述

提交意见反馈