物理可行的世界模型：为查询条件化具身智能辩护

arXiv cs.AI 2026/06/01 04:00 论文

world-models embodied-ai physics intervention-queries modular-world-models verification

摘要

本文论证了具身AI的世界模型必须是物理可行的且查询条件化的，重点在于为每个干预查询识别最简单的物理抽象，而不是仅仅预测观察结果。

arXiv:2605.30542v1 公告类型：新摘要：具身智能的世界模型必须是物理可行的：其构建目的是通过表征支配行为结果的物理结构来回答干预查询，而非仅仅预测未来的观察结果。现有的观察预测型世界模型可以产生视觉上合理但物理上错误的推演。这种失败是结构性的；不同的物理系统可能看起来相同，但在干预下会分道扬镳。我们通过控制基准测试暴露了这一问题，该测试固定可见场景同时改变潜在物理量。我们表明，此类模型可能推荐不可行的动作、错误预测交互结果，或认证不安全行为。我们认为，具身AI需要能够识别出足以回答干预查询的最简单物理抽象的世界模型。这种模型包含模块化组件，包括环境表征、潜在状态与参数估计、动作规范、干预动力学以及查询级响应。一个自主协调器应识别相关抽象，并为每个查询组合兼容的学习组件与结构化组件。当封闭形式的物理模型不可用、不确定或代价高昂时，转移模型可以是解析的、模拟的、学习的或混合的，但它必须保持决定干预结果的结构。这种分解使模型可解释、其组件可验证，其输出可针对查询进行审计。它还为新世界模型的设计提供了原则，并为现有模型提供了可行性检验：正确的抽象不是最详细的世界模型，而是保留与查询相关区别的最简单模型。我们在现有系统无法正确回答的查询上展示了这一方法，并概述了协调器如何动态组装和调整物理可行的模型以用于规划、控制和验证。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:23

# 物理可行的世界模型：论查询条件化具身智能的案例
来源：https://arxiv.org/html/2605.30542
Adam J. Thorpe、Stepan Tretiakov、Cheng-Hsi Hsiao、Su Ann Low、Xingjian Li、Hassan Iqbal、Neel P. Bhatt、Ufuk Topcu、Krishna Kumar
德克萨斯大学奥斯汀分校
[email protected]、[email protected]、[email protected]、[email protected]、[email protected]、[email protected]、[email protected]、[email protected]、[email protected]

###### 摘要

具身智能的世界模型必须具有物理可行性：其构建方式应能通过表征支配智能体行为结果的底层物理结构来回答干预查询，而不仅仅是作为未来观察结果的通用预测器。现有的世界模型经过训练用于预测观察结果，可能产生视觉上合理但物理上不正确的推演。这种失败是结构性的：不同的物理系统可能产生相同的观察结果，但在干预下表现不同。我们通过受控基准测试揭示了这一问题，这些测试在保持可见场景固定的同时改变底层物理特性。我们证明，观察预测模型可能推荐不可行的行动、错误预测交互结果，或认证在现实世界中本不安全的行为。我们认为，具身智能需要能够识别出足以回答给定干预查询的最简单物理抽象的世界模型。这种物理可行的世界模型由模块化组件构成，包括环境表示、潜在状态与参数估计、行动规范、干预下的动力学以及响应查询。自主编排器应为每个查询识别相关的抽象，并从兼容的学习组件和结构化组件中组合世界模型。转换模型可以是解析的、模拟的、学习的，或在封闭形式物理不可用、不确定或计算代价高昂时采用混合模式，但必须保留决定干预结果的物理结构。由此产生的模块化分解使模型可解释、组件可验证、输出可针对查询进行审计。这也为新的世界模型提供了设计原则，为现有模型提供了可行性测试：正确的抽象不是最详细的世界模型，而是保留与查询相关区分的最简单模型。我们展示了这种方法如何在现有系统无法正确回答的干预查询实践中发挥作用，并概述了编排器如何动态组装和调整物理可行的模型用于规划、控制和验证。

参见图注
图1：视觉世界模型可能产生视觉上合理但物理上不可能的预测。我们认为，具身智能因此需要能够识别足以回答给定干预查询的最简单物理抽象的世界模型。

## 1 引言

当具身智能的世界模型支持正确推理一个物理系统在干预下如何演化时，它就是物理可行的。对于具身智能而言，相关的未来不仅仅是一系列观察结果，而是物理系统在干预下的演化。因此，用于规划、控制、反事实推理或安全分析的模型必须保留影响这些决策的物理区分。视觉上合理并不能保证这一特性。一个推演可能看起来逼真，但使用了无效的动力学或省略了行动所依赖的变量。因此，具身世界建模需要查询条件化的物理可行世界模型：其状态变量、动力学、参数和约束足以评估所考虑的干预。仅扩展观察预测并不能保证这一要求，尤其是当决定结果的变量是潜在的、未被观察的或仅能通过行动揭示时。如图1所示，相同的干预查询可能需要推理接触、质量、流体响应或稳定性约束，而这些从视觉外观上无法识别。查询指定了干预、任务以及预测必须满足的正确性标准。这些要素决定了模型必须构建的抽象：需要哪些变量、动力学、参数、约束以及何种保真度来回答查询。物理可行性并不要求最详细的世界模型，它要求保留与查询相关区分的最简单抽象。例如，抓取任务可能需要接触和摩擦，倾倒任务可能需要体积转移和守恒定律，安全查询可能需要可达性或屏障约束，而不需要照片级渲染。因此，正确的世界模型不是一般意义上最逼真的模型，而是其变量、方程、参数和约束足以满足所考虑干预的模型。

当训练信号无法识别行动所需的动力学时，当前基于观察预测的世界模型就会失败。视觉-语言模型、视频生成器和潜在预测模型可以匹配感知规律，但在决定干预结果的潜在物理变量上失败（Chow等人, 2025; Kang等人, 2024; Meng等人, 2024; Guo等人, 2025; Gu等人, 2025; Motamed等人, 2026; Zhang等人, 2025, 2026a）。这个问题是结构性的而非架构性的。相同的观察结果可以拟合多个物理系统，而这些系统在被作用时表现不同。更多的被动数据可能会改善视觉真实感和短时间预测，但无法解决决定干预结果的区分。我们认为，具身智能的世界建模必须从观察外推转向基于查询条件化的物理可行模型构建。

这一立场不要求最大化的物理细节，而是要求明确选择回答查询所需的抽象。一个物理可行的模型必须表示干预所作用的变量，使用兼容的动力学和约束，并返回查询所需形式的答案。这种观点区分了端到端预测器经常混淆的角色，包括感知、抽象、参数估计、动力学和查询级响应。因此，世界模型不应严格以感知真实感来评判，而应以其抽象是否支持干预下的下游决策来评判。我们通过受控示例来支持这一立场，这些示例揭示了视觉世界模型的失败模式，并以说明性结构展示查询条件化物理抽象如何解决这些问题。

**贡献**：本文做出三项贡献。(1) 我们论证了观察预测世界模型在结构上不足以支持具身干预，具身世界模型应针对每个查询，围绕干预所依赖的物理区分来构建。(2) 我们在受控物理变化下展示了三个模型家族（视觉-语言、视频扩散、行动条件化潜在预测）中的相应失败。(3) 我们定义了一个模块化设计框架，用于查询条件化地构建物理可行的世界模型，并指定了编排器必须执行的操作来组合它。

## 2 当前世界模型如何未能表示物理

当前世界模型通常经过优化，用于从过去观察预测未来观察，从而产生视觉上连贯但干预下失败的预测。我们使用模拟作为评估套件：静态和反事实VLM预测、扩散视频续接以及行动条件化潜在控制。在这些测试中，外观或行动保持几乎固定，而潜在物理变化；模型常常给出看似合理的解释、视频或行动，却没有保留决定结果的变量。完整的协议和结果见附录B.1、附录B.2和附录B.3。

参见图注
图2：用于揭示视觉世界模型在潜在物理变化下失败的控制评估场景，包括刚体碰撞、可变形交互、刚-液耦合、接触依赖的推挤以及粘度依赖的倾倒。

### 2.1 模拟套件与测试

我们在具有指定物理参数、干预和参考推演的控制模拟上评估模型（图2）。每个场景系列在保持外观或行动几乎固定的同时隔离了一个查询相关的潜在变量。该套件支持上述三个测试，详细内容见附录B.1、附录B.2和附录B.3。

**斜坡到塔楼刚体交互**。这些场景测试模型是否追踪潜在刚体属性，而不是仅从视觉外观预测通用碰撞结果。一个球沿着斜坡滚下，与一个小型积木塔碰撞。我们使用两个密切相关的设置。在密度变化设置中，塔的几何形状保持固定，而积木材料变化，例如从木头变为钢，使得相同的外观碰撞产生不同的动量传递和倒塌行为。在回弹设置中，我们引入高回弹物体，包括一个弹跳抛射体和复合塔，其中可能在刚性下层积木之上包含一个弹跳元素。这些变体见图8。它们测试预测是否考虑了质量、惯性、回弹系数、摩擦耗散和接触顺序。

**可变形果冻墙交互**。我们用一堵或两堵可变形果冻墙替换刚性积木塔，并改变释放距离。视觉上相似的碰撞可能根据冲击能量和材料响应产生变形、滑动、倾斜或通过多个可变形体的动量传递。因此，正确预测需要追踪变形、能量耗散和顺序接触动力学。这些场景测试预测是否捕捉了柔性和顺序可变形体交互。静态VLM基准测试包括图7中的单果冻墙和双果冻墙设置，而图10比较了双果冻墙情况下的物理推演与扩散生成的连续内容。

**斜坡到液体填充杯的冲击**。这些场景测试模型是否捕捉耦合的刚-液交互。一个球撞击部分或完全填充液体的杯子，而几何形状和相机位置保持固定。我们在试验中变化球材料、释放高度和填充水平。结果取决于球动量、杯子运动、液体惯性、晃动、溢出以及杯子-液体组合质心。液体填充杯子设置出现在图7的静态VLM基准测试中；图9进一步比较了物理模拟的刚-液交互与扩散生成的视频连续内容。

**机器人-墙壁推挤**。一个Franka Panda末端执行器遵循相同的水平推挤轨迹进入一个独立墙壁，同时接触高度或地面摩擦发生变化。高和低接触点区分了倾覆力矩和平移，而摩擦变化区分了滑动和倾覆。这测试了行动预测是否根据物理接触状态进行条件化。代表性的高推、低推和材料变化推演见图11和图12，其中视觉选择的轨迹与基于模拟器的执行进行了比较。

**机器人臂倾倒与粘度变体**。这些场景测试模型是否推断影响正确行动的潜在流体属性。一个机器人以固定几何和受控运动从一个杯子倒入另一个杯子。我们比较了类似水、类似蜂蜜和合成粘度的液体。粘度改变了流速、转移时机、保留液体和溢出行为，因此正确的行动可能需要不同的保持时间或参数识别步骤。对候选粘度评估其与查询相关的量，如接收杯填充量、残留液体和溢出。依赖于粘度的倾倒变体和最佳匹配参数估计结果见图13。

总之，这些场景涵盖了刚性冲击、回弹、可变形交互、刚-液耦合、丰富接触的推挤和粘度依赖的倾倒。它们实例化了附录中报告的VLM、扩散、潜在控制和粘度估计测试。模拟代码可在https://github.com/pvwm/physically-viable-world-models 获取，模拟器推演、扩散生成视频续接和V-JEPA行动条件化推演的补充视频可在项目网站获取：https://pvwm.github.io/。

### 2.2 为什么失败是结构性的

上述失败并非特定于某种架构。第B.1、B.2和B.3节中的测试以不同形式显示了相同的模式：VLM识别相关效果但错过阈值结果；扩散推演在视觉上保持连贯，同时违反接触、流体或可变形动力学；潜在控制计划可能在视觉上合理但物理上不可行。VLM通过图像-文本先验和令牌级推理来中介物理知识，没有显式的状态在行动下演化。视频扩散模型将状态表示为图像序列，因此物理变量仅存在于可从像素统计中恢复的程度。潜在世界模型在针对预测优化的表示中学习转移函数（Ha和Schmidhuber, 2018b, a; Hafner等人, 2019b, a, 2021; Chen等人, 2022; Hafner等人, 2023; Deng等人, 2023; Hafner等人, 2025; Schrittwieser等人, 2020; Micheli等人, 2023; Hansen等人, 2024），但这些潜在变量不必对应于物理状态变量。这种局限性源于训练目标。预测观察序列要求模型从观测数据推断动力学，但

物理可行的世界模型：为查询条件化具身智能辩护

相似文章

世界行动模型：具身智能的下一个前沿

通过物理交互涌现的世界模型语义表征，无需语言监督

如果通往真正AI伴侣的道路不是更大的模型——而是更好的架构呢？

@drfeifei: https://x.com/drfeifei/status/2062247238143996275

为何通用人工智能需要世界模型：大型语言模型的不足与世界模型的潜在优势

提交意见反馈