世界模型应如何评估？一种以决策为中心的立场

arXiv cs.LG 2026/06/16 04:00 论文

world-models evaluation decision-making embodied-ai reinforcement-learning planning counterfactual-reasoning

摘要

本文调研了世界模型的评估方法，主张采用以决策为中心的框架，优先考虑反事实推理、规划与策略优化，而非视觉质量。文中引入了L0–L7评估阶梯及基准协议，使评估与声称的效用一致。

arXiv:2606.15032v1 Announce Type: new 摘要：世界模型已迅速成为现代AI的核心抽象之一。然而，这一术语现在指代多种不同对象：动作条件环境模型、潜在想象模型、未来视频预测器、交互式神经模拟器、潜在预测表示以及合成数据引擎。评估也随该术语的扩展而扩大。近期论文衡量视频真实感、感知相似度、指令遵循、物理合理性、策略排序、可执行性、规划成功率以及下游策略改进。结果不仅带来指标多样性，还反复出现声明/证据不匹配的问题：论文经常对其模型用途做出比其评估所能证实的更强的声明。本文调研了近期文献，并主张核心问题取决于使用场景。当模型被呈现为用于具身决策的世界模型时，更关键的问题不在于它是否生成视觉上吸引人的视频，而在于它是否支持在干预、策略诱导分布偏移和长期展开下的可靠反事实推理、策略评估、规划和策略优化。我们使用L0–L7阶梯来组织文献，该阶梯从视觉合理性到策略优化效用。在我们的解读中，L0–L3最自然地被视为生成工件的诊断，L4常常是第一个真正的干预性测试，而L5–L7提供了决策用途的最直接证据。基于这一诊断，我们提出一个以决策为中心的评估框架和一个基准协议，重点关注反事实动作保真度、闭环展开有效性、奖励/价值预测、策略排名一致性、优化提升、模型可利用性和不确定性校准。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:36

# 世界模型应如何评估？以决策为核心的立场 来源：https://arxiv.org/html/2606.15032 杨宇1,2,，张诗远1,2，盛逸飞1,2，任浩翔1,2，林浩鑫1,2,3 1 南京大学计算机软件新技术全国重点实验室，南京，中国 2 南京大学人工智能学院，南京，中国 3 Cirquar Technologies，南京，中国 ###### 摘要 世界模型已迅速成为现代人工智能的核心抽象之一。然而，该术语如今指向多个不同对象：动作条件环境模型、潜在想象模型、未来视频预测器、交互式神经模拟器、潜在预测表示以及合成数据引擎。评估也随着术语的扩展而拓宽。近期论文衡量视频真实感、感知相似性、指令遵循、物理合理性、策略排序、可执行性、规划成功率和下游策略改进。结果不仅是度量指标的多样化，更出现了一个反复出现的问题：**声明/证据不匹配**——论文常常对其模型用途做出比实际评估所能确立的更强声明。本文调研近期文献，并认为核心问题取决于用途。当一个模型被呈现为用于具身决策的世界模型时，更关键的问题不在于它是否能生成视觉上吸引人的视频，而在于它是否能在干预、策略诱导的分布偏移和长视界展开下支持可靠的反事实推理、策略评估、规划和策略优化。我们使用一个从 L0 到 L7 的阶梯来组织文献，该阶梯从视觉合理性的范围延伸到策略优化效用。在我们的解读中，L0–L3 最自然地被视为生成工件的诊断性指标，L4 通常是第一个真正的干预性测试，而 L5–L7 则提供了决策实用性的最直接证据。基于这一诊断，我们提出了一个以决策为中心的评估框架和基准协议，重点关注反事实动作保真度、闭环展开有效性、奖励/价值预测、策略排序一致性、优化提升、模型可利用性和不确定性校准。 ## 1 引言 世界模型已迅速成为当代人工智能最活跃的主题之一。在一脉工作中，继承自基于模型的强化学习，世界模型是一个用于规划、想象、策略评估或策略优化的学习动力学模型\[23 (https://arxiv.org/html/2606.15032#bib.bib1),27 (https://arxiv.org/html/2606.15032#bib.bib2),24 (https://arxiv.org/html/2606.15032#bib.bib3),53 (https://arxiv.org/html/2606.15032#bib.bib4)\]。在另一脉工作中，近期具身视频生成模型被描述为世界模型，因为它们可以从文本、图像、视频或动作生成合理的未来观测\[58 (https://arxiv.org/html/2606.15032#bib.bib5),10 (https://arxiv.org/html/2606.15032#bib.bib10),43 (https://arxiv.org/html/2606.15032#bib.bib11),32 (https://arxiv.org/html/2606.15032#bib.bib14),42 (https://arxiv.org/html/2606.15032#bib.bib15)\]。第三脉研究潜在预测表示，其中模型预测未来的嵌入而非像素\[1 (https://arxiv.org/html/2606.15032#bib.bib64),40 (https://arxiv.org/html/2606.15032#bib.bib65),39 (https://arxiv.org/html/2606.15032#bib.bib66)\]。第四脉使用生成模型作为合成数据引擎或可执行视频规划器，用于机器人学习\[26 (https://arxiv.org/html/2606.15032#bib.bib13),2 (https://arxiv.org/html/2606.15032#bib.bib49),16 (https://arxiv.org/html/2606.15032#bib.bib51),28 (https://arxiv.org/html/2606.15032#bib.bib25)\]。这种激增在科学上是富有成效的，但也使评估变得模糊不清。一些论文使用 MSE、PSNR、SSIM、LPIPS、FID 和 FVD 评估像素重建或分布视频质量。其他论文使用 VLM 裁判、物理 QA 或人类偏好评估指令遵循或物理合理性。还有一些论文使用在模型内部训练后的最终策略成功率。另外，另一些论文则使用世界模型估计的策略成功率与真实或模拟器成功率之间的相关性\[44 (https://arxiv.org/html/2606.15032#bib.bib26),47 (https://arxiv.org/html/2606.15032#bib.bib28),34 (https://arxiv.org/html/2606.15032#bib.bib30),45 (https://arxiv.org/html/2606.15032#bib.bib22)\]。这些评估是不可互换的。一个模型可能看起来像是一个强大的视频生成器，但对于控制而言却是一个糟糕的环境模型；反之，一个潜在预测模型可能对规划有用，却从未产生过照片级真实的像素。我们的论点是有条件的，而非普适的。我们**不**声称每一个被称为世界模型的系统都应通过策略优化来判断。如果预期用途是未来视频生成，那么视频质量和语义合理性是合法的首要目标。问题始于适合某一声明的证据被修辞性地用来支持一个更强的声明。如果一个模型被呈现为用于具身决策的世界模型，那么我们觉得最有信息量的问题是： > *如果从该历史出发，智能体采取这些动作，在任务相关的术语中会发生什么？* 持怀疑态度的读者可能会反对，认为视觉质量、语义合理性或人类偏好可以在某些情况下与下游效用强相关，或者一些被称为世界模型的系统根本就不是为控制设计的。我们同意这一点。因此，我们的主张是比较性的，而非排除性的。我们不否认较低层级度量或纯生成式世界模型研究的实用性。相反，我们认为，对于宣称目标是具身决策的模型，动作、结果和策略层级的评估通常比工件质量单独提供的证据更强。这一观点最直接地体现在反事实学习、策略条件模型、全视界展开和可泛化具身决策的环境模型工作中\[8 (https://arxiv.org/html/2606.15032#bib.bib7),7 (https://arxiv.org/html/2606.15032#bib.bib8),37 (https://arxiv.org/html/2606.15032#bib.bib9),63 (https://arxiv.org/html/2606.15032#bib.bib6)\]。这也越来越多地体现在近期明确区分感知质量与功能效用的基准中\[45 (https://arxiv.org/html/2606.15032#bib.bib22),28 (https://arxiv.org/html/2606.15032#bib.bib25)\]。 本文聚焦于**声称用于具身决策的世界模型**：策略评估、规划、策略优化、安全测试及相关用途。因此，它既不是反视频度量，也不是反 VLM 裁判。我们更狭隘的主张是，对于这一特定用例，除非声称的用途本身是纯生成式的，否则这些评估通常更适合被解释为较低层级或辅助性的诊断工具。 本文做出四项贡献： 1. 1. 我们提供了一份逐篇的近期世界模型文献调研，按照**每篇论文实际评估了什么**来组织。 2. 2. 我们识别出文献中一个具体且反复出现的失败模式：**声明/证据不匹配**，即较低层级的证据被非正式地用来支持更强的决策声明。 3. 3. 我们使用一个 L0–L7 的世界模型评估阶梯来组织文献，该范围从视觉合理性到策略优化效用，并认为对于决策声明，L4 通常标志着第一个真正的干预性测试，而 L5–L7 通常提供了决策实用性的最直接证据。 4. 4. 我们提出了一个以决策为中心的评估框架和基准协议，围绕反事实分支、策略诱导的分布偏移、全视界结果保真度、策略排序一致性、优化提升、可利用性和不确定性校准构建。 ## 2 背景与符号 ### 2.1 术语的简要谱系 “世界模型”这一短语并非凭空出现。在与本文最相关的设定中，其最近的祖先是模型控制与强化学习中的**环境模型**传统。在该传统中，核心对象是一个动作条件的动力学、奖励以及有时不确定性的预测模型，用于回答如下形式的问题：如果智能体从状态或历史 \(h\) 采取动作 \(a\)，接下来可能发生什么，这对回报或任务完成有何后果？在这种较窄的含义下，概念目标已经是反事实和决策理论的：模型之所以有价值，是因为它支持规划、策略评估或策略改进\[23 (https://arxiv.org/html/2606.15032#bib.bib1),27 (https://arxiv.org/html/2606.15032#bib.bib2),24 (https://arxiv.org/html/2606.15032#bib.bib3),53 (https://arxiv.org/html/2606.15032#bib.bib4)\]。 “世界模型”这一标签通过将紧凑表示学习与潜在动力学和控制器配对的工作变得尤为显眼\[23 (https://arxiv.org/html/2606.15032#bib.bib1)\]。在该表述中，世界模型并非字面意思上的环境一切事物的照片级真实模拟器。相反，它指的是环境演化的一个内部预测模型，通常位于潜在状态空间中，足以支持控制。Dreamer 风格的方法以及诸如 DayDreamer 等真实机器人扩展保留了这一基本解释：世界模型主要用于想象展开、价值估计和策略学习\[24 (https://arxiv.org/html/2606.15032#bib.bib3),53 (https://arxiv.org/html/2606.15032#bib.bib4)\]。 术语随着具身 AI 和大规模生成式模型的成熟而拓宽。第一个转变来自**未来观测预测**。在许多具身和网络规模的设定中，视频是最易获得的监督信号，而明确的动作或奖励标签可能稀缺或异构。因此，预测未来帧、视频或多模态延续的模型开始被描述为世界模型，尤其是当它们被用于在语言、图像、视频或动作条件下预测场景如何演化时\[10 (https://arxiv.org/html/2606.15032#bib.bib10),43 (https://arxiv.org/html/2606.15032#bib.bib11),32 (https://arxiv.org/html/2606.15032#bib.bib14),42 (https://arxiv.org/html/2606.15032#bib.bib15)\]。在这种更广泛的用法中，“世界”一词通常指的是模型生成合理未来的能力，即使模型并未直接被评估为策略评估或策略优化工具。 第二个转变来自**交互式神经模拟器**。一旦动作条件的视频模型具备了自回归展开的能力，将它们作为替代环境重用就变得自然而然。诸如 UniSim、Vid2World、IRASim、WorldGym 和 WorldArena 等系统位于这个中间区域：它们仍然是未来观测的生成模型，但同时被当作交互式环境来查询\[58 (https://arxiv.org/html/2606.15032#bib.bib5),25 (https://arxiv.org/html/2606.15032#bib.bib27),66 (https://arxiv.org/html/2606.15032#bib.bib31),44 (https://arxiv.org/html/2606.15032#bib.bib26),45 (https://arxiv.org/html/2606.15032#bib.bib22)\]。这模糊了“视频预测器”和“世界模拟器”之间的界限。这也解释了为什么评估变得模糊：同一模型可以在一段中被视觉评估，在下一段中被功能评估。 第三个转变来自**潜在预测表示**。在 JEPA 风格及相关方法中，建模目标不是像素重建，而是未来潜在结构。这些方法通常隐含或明确地论证，一个有用的世界模型可能是预测抽象、与规划相关的表示而非照片级真实图像的模型\[1 (https://arxiv.org/html/2606.15032#bib.bib64),40 (https://arxiv.org/html/2606.15032#bib.bib65),39 (https://arxiv.org/html/2606.15032#bib.bib66)\]。这一方向很重要，因为它打破了世界模型的自然产出必然是视频的假设。它也加剧了**观测保真度**与**决策相关充分性**之间的区别。 第四个转变来自**作为合成数据引擎或可执行规划器的世界模型**。在这一方向中，模型通常不被当作经典意义上的通用模拟器。相反，它可能生成机器人视频并转换为动作，用想象轨迹扩充数据集，或产生改进下游学习的演示\[26 (https://arxiv.org/html/2606.15032#bib.bib13),2 (https://arxiv.org/html/2606.15032#bib.bib49),16 (https://arxiv.org/html/2606.15032#bib.bib51),28 (https://arxiv.org/html/2606.15032#bib.bib25)\]。这里再次，“世界模型”一词指的是环境演化的模型，但其操作角色既非纯动力学学习，也非纯视频生成。它是工具性的：生成有用的训练信号、可执行计划或丰富的反事实数据。 从这个角度看，当前文献中包含的不是一种而是几种部分重叠的世界模型传统。由此产生的模糊性并不令人惊讶。同一个术语现在涵盖至少六个研究对象：动作条件环境模型、潜在想象模型、未来视频预测器、交互式神经模拟器、潜在预测表示以及合成数据引擎。这些对象有重叠，但并不完全相同；因此，它们的评估也不必相同。 | 阶段 | 通常被称为世界模型的对象 | 为何出现这种用法 | 代表性工作 | 典型评估重点 | |------|------------------------|----------------|------------|--------------| | I | 动作条件环境模型 | 规划、控制、离策略评估、基于想象的 learning | \[23,27,24,53\] | 策略回报、样本效率、基于模型的规划、价值估计 | | II | 潜在想象模型 | 部分可观测下需要紧凑的长视界预测状态 | \[23,24,53\] | 潜在展开质量、回报预测、下游控制 | | III | 未来视频预测器 | 大规模视频数据的可用性；具身任务自然地表达为未来视觉预测 | \[10,43,32,42\] | 视频保真度、语义、物理合理性 | | IV | 交互式神经模拟器 | 自回归动作条件视频模型被重用为替代环境 | \[58,25,66,44,45\] | 闭环展开质量、策略排序、规划成功率 | | V | 潜在预测表示 | 对以像素为中心的评估的反应；强调抽象和规划相关性 | \[1,40,39\] | 规划、探查、迁移、密集对应、价值相关特征 | | VI | 合成数据引擎 / 可执行规划器 | 生成模型被工具性地用于创建轨迹、演示或计划 | \[26,2,16,28,50\] | 下游策略提升、可执行性、动作恢复、模仿 |

世界模型应如何评估？一种以决策为中心的立场

相似文章

世界模型：架构、方法、推理范式与应用的全面综述

WBench：面向交互式视频世界模型评估的综合多轮基准

机器人学习中的世界模型：全面综述

世界模型与语言模型相遇：论具体推理与抽象推理的互补性

stable-worldmodel-v1：可复现的世界建模研究与评估

提交意见反馈