MiraBench:评估机器人世界模型中的动作条件可靠性

arXiv cs.AI 论文

摘要

MiraBench是一个分层基准测试,用于评估机器人世界模型中的动作条件可靠性,在12种模型配置下评估物理一致性、动作跟随准确性和乐观偏差。

arXiv:2605.29360v1 公告类型:新 摘要:动作条件世界模型正越来越多地被用作机器人学习的可扩展模拟器,然而当前的评估很少能证明其预测在所受条件作用下的可靠性。现有基准主要强调视觉保真度,而未明确预测的未来是否在物理上合理、是否忠实于指令动作,以及在动作本不应成功时是否对失败有校准。我们引入了 \textsc{MiraBench},这是一个分层基准测试,将 \emph{动作条件可靠性} 定义为机器人世界模型的核心评估目标。MiraBench 将该目标分解为三个逐步提高要求的层次:\emph{物理一致性}(评估无参考的物理一致性)、\emph{动作跟随准确性}(衡量预测是否尊重与任务相关的动作输入)以及 \emph{乐观偏差检测}(探测在可能导致失败的动作下预测成功结果的倾向)。为支持这一评估,我们整理了一个带有人工标注的语料库,包含超过 16,000 个跨任务、失败类别和主流世界模型的判断。我们评估了 12 种代表性模型配置,涵盖向量条件机器人世界模型、文本条件生成式世界模型、开源系统、闭源系统以及多种模型规模。在此广泛的模型图景中,MiraBench 揭示了三个核心发现:视觉保真度是动作保真度的一个糟糕代理;增加模型规模并不能可靠地提高动作跟随能力;乐观偏差在当前系统中普遍存在。通过将评估从外观转向动作条件可靠性,MiraBench 为评估和改进作为忠实模拟器的机器人世界模型提供了诊断基础。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:17

# MiraBench:评估机器人世界模型中动作条件可靠性
来源:https://arxiv.org/html/2605.29360

杨天卓¹,申子涵¹,米子睿¹,张兆毅¹,周佳毅¹
季家铭¹,²,戴俊涛¹,²,陈佳伟¹,陈博远¹,²,†,杨耀东¹,†

¹北京大学人工智能研究院
²Physis Lab

###### 摘要

以动作为条件的世界模型 increasingly 被用作机器人学习的可扩展模拟器,但当前的评估提供的证据有限,表明其预测在条件动作下是可靠的。现有基准主要强调视觉保真度,而忽略了预测的未来是否在物理上合理、是否忠实于所指令的动作,以及在动作不应成功时是否对失败有校准。我们提出了 **MiraBench**,这是一个分层基准,将*动作条件可靠性*定义为机器人世界模型的核心评估目标。MiraBench 将该目标分解为三个递进难度层次:*物理一致性*(评估无参考的物理合理性)、*动作跟随保真度*(衡量预测是否尊重任务相关动作输入)以及*乐观偏差检测*(探测在失败诱导动作下预测成功结果的倾向)。为支持这一评估,我们整理了一个人工标注语料库,包含跨任务、失败类别和主流世界模型的超过 16,000 条判断。我们评估了 12 种代表性模型配置,涵盖向量条件机器人世界模型、文本条件生成世界模型、开源权重系统、闭源系统以及多种模型规模。在这广泛的模型 landscape 中,MiraBench 揭示了三个核心发现:视觉保真度是动作保真度的糟糕代理;增加模型规模并不能可靠地改善动作跟随;乐观偏差在当前系统中普遍存在。通过将评估从外观转向动作条件可靠性,MiraBench 为评估和改进作为忠实模拟器的机器人世界模型提供了诊断基础。

²通讯作者:陈博远和杨耀东。

## 1 引言

具身智能正在快速发展,自主机器人 increasingly 被部署在制造业、医疗保健和日常辅助中 [4, 37, 8]。然而,一个核心瓶颈仍然存在:大规模获取多样化、高质量的交互数据。现实世界中的数据收集昂贵、缓慢且难以跨环境泛化,而罕见故障、长视野任务和安全关键交互尤其难以收集到足够数量 [22, 8]。这种具身智能体必须学习的内容与物理数据收集所能提供的内容之间的不匹配,使得学习型模拟器越来越有吸引力。

参考图注
图 1:激励 MiraBench 的代表性失败模式。(a–b) 物理一致性失败包括物体变形、消失和不可信的自由落体动力学。(c) 动作跟随失败发生在预测运动不完整或与指令动作不匹配时。(d) 乐观偏差发生在失败动作被成功预测覆盖时。

世界模型提供了一种有前景的解决方案。通过预测以动作为条件的未来观察,它们可以充当可扩展的模拟器,生成超出实际可收集范围的轨迹 [46]。这一前景导致了机器人领域动作条件世界模型的快速扩张 [10, 28, 51, 13] 以及驾驶等相关领域 [19, 11]。然而,当前的评估实践仍不完整。现有基准主要衡量生成的视频*看起来*如何,而不是它们是否保留了忠实模拟器所需的动作条件后果 [34, 23, 30, 20]。对于机器人学习,这一区别至关重要。世界模型可以产生视觉上合理的未来,同时仍然违反物理规律、忽略指令动作,或用幻觉成功覆盖失败诱导动作。这些错误尤其可能发生,因为机器人学习数据集主要由成功演示主导 [25, 41, 8],而失败则稀疏、被过滤掉或完全缺失。因此,模型可能会获得一个强烈的先验,倾向于成功完成,从而抑制矛盾的 action 证据。我们将这种系统性失败模式称为*乐观偏差*(图 1)。为了评估这一问题,我们引入了 **MiraBench**,一个针对机器人世界模型中*动作条件可靠性*的分层基准。MiraBench 将可靠性分解为三个嵌套层次:**物理一致性**,测试预测的未来是否保持物理连贯;**动作跟随保真度**,测试生成的结果是否反映指令动作和任务意图;以及**乐观偏差检测**,测试模型在条件于现实失败诱导动作时是否保留失败结果。这个层次结构具有诊断性:较低层次的失败表明物理不连贯,而较高层次的失败揭示动作不敏感或成功偏置的预测。

MiraBench 的一个关键组成部分是它基于人工的评估器构建。我们没有依赖未校准的视觉偏好分数,而是收集了一个细粒度标注语料库,覆盖代表性世界模型输出,并用它来验证模块特定的 VLM 评估器。该语料库包含 906 个生成视频和 16,704 个结构化标注决策,涵盖四个模块:16 指标物理一致性、带异常轨迹的物理定律评分、结构化动作跟随判断以及 18 问题乐观偏差诊断。这些标注为对物体持久性、运动合理性、遮挡行为、任务完成、失败原因和成功覆盖线索敏感的评估器提供了监督。经过验证的评估器随后应用于更广泛的模型套件,使 MiraBench 能够将人类级别的诊断粒度与可扩展的多模型评估结合起来。

利用这一流程,我们评估了 12 种代表性模型配置,涵盖向量条件机器人世界模型和文本条件生成世界模型,包括由 NVIDIA、阿里巴巴、快手等主要工业和学术团体发布的开源和闭源系统。在这些模型 landscape 中,我们发现三个一致的规律:视觉保真度是动作保真度的糟糕代理;模型规模不能可靠地改善动作跟随;乐观偏差在当前系统中普遍存在。总之,这些发现表明,以外观为中心的评估大大低估了当前机器人世界模型作为模拟器的可靠性。

我们的贡献如下:
- • 我们引入了*动作条件可靠性*作为机器人世界模型的评估目标,将模拟器忠实性与通用视觉保真度区分开来。
- • 我们形式化了*乐观偏差*,一种可测量的失败模式,其中世界模型在失败诱导动作下幻觉出成功结果。
- • 我们提出了 **MiraBench**,一个分层基准,通过无参考物理检查、动作条件任务评估和针对性失败保留测试来评估物理一致性、动作跟随保真度和乐观偏差检测。
- • 我们发布了一个细粒度人工标注语料库,包含 906 个视频和 16,704 个跨四个评估模块的结构化标注决策,为基于人工的 VLM 评估器提供逐指标监督,并提供可复用的失败模式分析。
- • 我们使用经过验证的 MiraBench 评估器对 12 种代表性世界模型配置进行了广泛的自动评估,揭示了视觉保真度、名义动作跟随、规模和失败保留之间的系统性差距。

## 2 相关工作

##### 具身 AI 的世界模型。
从早期的基于模型的 RL [36, 14] 通过 DreamerV1/V2/V3 系列 [15, 16, 17] 以及像素空间模型如 IRIS [26] 和 DIAMOND [2] 以来,从动作预测未来状态的研究一直在进行。具体到机器人操作,UniSim [46]、IRASim [51]、CtrlWorld [13] 和 DreamDojo [10] 证明了动作条件视频扩散可以在操作基准上实现高视觉保真度。自动驾驶 [19, 44, 11] 和开放世界设置 [5, 50] 的并行发展进一步拓宽了范围。尽管取得了这些进展,所有这些工作都在视觉质量指标(FVD、PSNR、SSIM 或人类偏好)上评估其模型,没有系统地衡量预测是否忠实于特定动作——尤其是失败动作。将失败轨迹几乎普遍排除在训练语料之外 [25, 41, 8] 被视为数据收集规范,而不是评估问题。MiraBench 是第一个将其视为评估问题的基准。

##### 视频世界模型的评估基准。
FVD [40]、VBench [20]、EvalCrafter [24] 和 T2V-CompBench [35] 为衡量感知质量和 compositional 文本对齐建立了坚实基础。针对世界模型的特定基准,包括 WorldSimBench [30]、WorldModelBench [23]、WorldScore [9] 和 WorldArena [34],增加了物理探测和指令跟随维度。然而,所有这些框架评估的是模型*生成*了什么,而不是其输出是否*忠实于条件输入*:一个通过成功先验生成看似合理视频的模型,与一个精确跟随动作的模型得分相同,因为两者在任何视觉质量指标下都是不可区分的。

##### 视频模型中的物理推理。
IntPhys [32]、CLEVRER [47]、ComPhy [7]、Physion [3]、Physion++ [39] 和 PhyWorldBench [12] 共同表明,物理违规在生成模型中很常见,而标准指标无法检测到它们。MiraBench 的第 1 层建立在这一发现之上,但将问题从抽象的物理理解转向*条件于特定动作*的物理:不是模型是否知道无支撑的物体会下落,而是当指令要求释放物体时,它是否正确预测了下落。

##### 动作跟随、策略学习和合成数据。
基于模型的 RL 方法 [33, 18, 21] 依赖世界模型保真度来支持 imagination 中的规划;当保真度较差时,在仿真中优化的策略无法迁移 [21]。关于机器人学习合成数据生成的工作,包括 ROSIE [48]、RoboGen [45]、GenSim [43] 等,确定了动作-状态映射准确性比视觉真实性对下游策略质量更重要。域随机化 [38] 和 sim-to-real 迁移 [29] 解决了物理模拟器中的保真度差距;我们的工作识别了学习型世界模型中的类似差距。WorldArena [34] 和 CtrlWorld [13] 是衡量操作设置中动作跟随的最直接前身,但两者都衡量平均情况性能,没有孤立出乐观偏差最强的失败情况。

## 3 问题形式化

##### 作为条件生成器的世界模型。
令 $\mathcal{W}$ 表示机器人世界模型,$\mathcal{E}$ 表示真实环境动力学。给定初始观察 $o_0$ 和动作序列 $\mathbf{a}_{1:T}$:
$$\hat{\mathbf{v}}_{1:T} \sim p_{\mathcal{W}}(\cdot \mid o_0, \mathbf{a}_{1:T}), \qquad \mathbf{v}^{*}_{1:T} \sim p_{\mathcal{E}}(\cdot \mid o_0, \mathbf{a}_{1:T}),$$
(1)
其中 $\hat{\mathbf{v}}_{1:T}$ 是预测轨迹,$\mathbf{v}^{*}_{1:T}$ 是环境轨迹。一个忠实的世界模型应保持条件信号的结果:其 rollout 应在物理上可接受,在语义上与指定动作一致,并在动作意味着失败时对失败有校准。我们将此属性称为**动作条件可靠性**。

##### 物理一致性。
令 $\Phi = \{\phi_1, \ldots, \phi_K\}$ 表示一组物理不变量,这些不变量应对任何可实现轨迹成立,包括物体持久性、连贯运动、接触因果性、遮挡连续性和简单物理定律。我们不将每个不变量视为二元谓词,而是将每个 $\phi_k$ 与归一化违规程度 $\delta_k(\hat{\mathbf{v}}) \in [0,1]$ 关联,其中 0 表示不变量满足,1 表示严重违规。我们定义**物理一致性**为:
$$\mathrm{PA}(\hat{\mathbf{v}}) = 1 - \frac{1}{K} \sum_{k=1}^{K} \delta_k(\hat{\mathbf{v}}).$$
(2)
它保持**无参考**:物理有效性是从生成的 rollout 本身评估的,无需真实视频。因此,一个预测可能在视觉上看起来真实,但如果它违反持久性

相似文章

WBench:面向交互式视频世界模型评估的综合多轮基准

Hugging Face Daily Papers

WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。