Ego2World：将第一人称烹饪视频编译为可执行世界以进行信念状态规划

arXiv cs.AI 2026/05/14 04:00 论文

embodied-agents benchmark belief-state-planning egocentric-video cooking partial-observation

摘要

Ego2World将第一人称烹饪视频（HD-EPIC）转换为具有图转换规则的可执行符号世界，从而能够在部分观察下评估信念状态规划。实验表明，信念记忆提高了任务完成率，表明它应该成为具身智能体评估的首要目标。

arXiv:2605.13335v1 公告类型：新摘要：家庭环境中的具身智能体必须在部分观察下进行规划：它们需要记忆物体、跟踪状态变化，并在动作失败时恢复。现有基准仅部分测试了这一能力。第一人称视频数据集捕捉了真实的人类活动，但保持被动，而交互式模拟器支持执行，但依赖于合成场景和手工制作的动态，引入了模拟到真实的差距，并且通常假设状态完全可观察。我们提出Ego2World，一个可执行的基准，它将第一人称烹饪视频转换为由图转换规则控制的可执行符号世界。基于HD-EPIC，Ego2World从视频注释中导出可复用的转换规则，并在隐藏的符号世界图中执行它们。在评估过程中，模拟器维护隐藏的世界图，而智能体仅使用局部观察和执行反馈在其自身的部分信念图上进行规划。这种分离迫使智能体更新记忆并重新规划，而无法观察到真实的世界状态。实验表明，动作重叠分数高估了物理状态成功，持久信念记忆提高了任务完成率，同时减少了重复的视觉探索——这表明信念维护应该成为具身智能体评估的首要目标。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/14 06:16

# 将第一人称烹饪视频编译成可执行世界以用于信念状态规划  
来源：https://arxiv.org/html/2605.13335  

秦川程¹，詹涛龚²，彭赞孙³，安吉拉·姚³，徐磊杨⁴，世杰李⁴  

¹西安交通大学  
²南开大学  
³新加坡国立大学  
⁴A\*STAR  

###### 摘要  

家庭环境中的具身代理必须在部分观察下进行规划：它们需要记住物体、跟踪状态变化，并在动作失败时进行恢复。现有的基准测试仅部分测试了这种能力。第一人称视频数据集捕捉了真实的人类活动，但仍然是静态的；而交互式模拟器支持执行，但依赖于合成场景和手工设计的动力学，引入了模拟到现实之间的差距，并且通常假设完全可观察的状态。我们提出了 **Ego2World**，这是一个可执行的基准测试，它将第一人称烹饪视频转换为由图转换规则控制的可执行符号世界。Ego2World 基于 HD-EPIC，从视频标注中推导出可重用的转换规则，并在一个隐藏的符号世界图中执行它们。在评估过程中，模拟器维护隐藏的世界图，而代理仅使用局部观察和执行反馈，基于自身的部分信念图进行规划。这种分离迫使代理更新记忆并重新规划，而无需观察真实的世界状态。实验表明，动作重叠分数高估了物理状态的成功率，而持久信念记忆提高了任务完成率，同时减少了重复的视觉探索——这表明信念维护应成为具身代理评估的首要目标。项目页面：https://sj-li.com/PROJ/Ego2World/  

## 1 引言  

家庭活动对具身代理来说很困难，因为世界随着每个动作而变化，而代理一次只能看到其中的一部分。在诸如*准备咖啡*或*制作沙拉*的任务中，代理可能需要记住上次看到杯子的位置，推断某个成分在操作后状态发生了变化，或者在预期物体不再存在于其认为的位置时修改计划。因此，评估问题不仅仅是代理能否生成合理的动作序列。一个更具挑战性的问题是：代理是否能够在一个部分观察且不断变化的世界中维护有用的信念，并利用该信念进行规划和恢复。

当前的基准测试涵盖了这一问题的不同部分，但很少能同时涵盖所有部分。第一人称视频数据集，如 EPIC-KITCHENS (Damen et al., 2022)、Ego4D (Grauman et al., 2022) 和 HD-EPIC (Perrett et al., 2025)，提供了真实家庭活动的观察，具有自然的物体布局、杂乱场景和长尾的人机交互。然而，它们仍然是静态的：代理可以重放或预测已标注的步骤，但不能尝试不同的动作、观察后果、接收执行失败信息或从失败中重新规划。交互式环境，如 AI2-THOR (Kolve et al., 2017)、VirtualHome (Puig et al., 2018) 和 BEHAVIOR (Li et al., 2023)，通过提供动作接口和状态转换来解决可执行性问题。然而，它们的场景基于合成资产和物理引擎构建，引入了模拟到现实的差距，限制了评估结果向真实世界设置的转移。此外，评估通常假设完全可观察的符号状态，这从一开始就消除了使家庭规划变得困难的部分观察挑战。这就在现实的自我中心观察与基于信念规划的可执行评估之间留下了空白。

我们提出了 **Ego2World**，一个通过将第一人称烹饪视频编译成可执行的图转换世界来填补这一空白的基准测试。我们不将 HD-EPIC 视频视为固定的演示，而是利用其密集的标注作为构建符号环境的来源。编译管道将细粒度的叙述归一化为原始动作和语义上一致的动作组，推导出可重用的转换规则，并用对象实例、功能区域、符号状态、可执行技能和任务目标实例化每个片段。由此产生的环境是一个可执行的抽象，基于真实的烹饪活动，代理可以在其中行动、接收反馈，并通过其动作产生的状态变化进行评估。Ego2World 目前包含 101 个视频、9,130 个编译后的动作组、426 个目标任务实例和 155 种归一化的可执行动作类型。据我们所知，这是第一个将真实视频基础与隐藏世界执行和显式信念状态评估相结合的基准测试。完整版本和评估子集统计数据见附录 A.2 和表 5。

Ego2World 的一个核心设计选择是将模拟器使用的状态与代理可用的状态分离开来。这与被动的第一人称视频基准测试不同（后者中代理预测或重放标注，但不能在变化的世界中行动），也与许多交互式模拟器不同（后者中环境状态由模拟器定义，并可作为相对完整的符号状态用于规划或评估）。在 Ego2World 中，模拟器维护一个隐藏的世界图 \( G_{w,t} \)，该图决定动作的有效性、状态转换和最终任务成功，而代理维护一个独立的信念图 \( G_{b,t} \)，该图仅由部分观察、局部状态变化反馈和执行反馈构建。代理在任何时候都观察不到完整的隐藏图。它必须根据自己的信念来技能落地、更新记忆和重新规划，即使该信念是不完整或过时的。最终成功是根据 \( G_{w,t} \) 来评判的。这种显式的世界/信念分离使得记忆和状态跟踪成为可测量的基准目标，而不是特定代理实现中的隐式属性。

Ego2World 通过一个诊断评估套件来实施这种分离，该套件针对信念状态规划的主要故障模式。该套件旨在回答以下问题：规划器主干是否可以在相同的可执行协议下进行比较？基于标注的编译是否可以被直接的 LLM 图生成替代？纯 LLM 规划在没有显式信念状态的情况下是否足够？部分观察代理与可执行参考条件之间有多大差距？动作重叠是否与最终的物理状态成功一致？以及在长跨度任务链中记忆如何表现？通过这些诊断，我们发现动作级别的重叠与物理状态正确性常常不一致：规划器可能选择与标注过程相似的动作，但仍然使隐藏世界处于错误的配置中。记忆消融实验进一步表明，信念表示减少了重复的视觉探索，而长跨度实验揭示记忆选择与记忆容量同样重要。这些结果表明，具身规划方面的进展需要基准测试能够同时评估动作合理性、可执行基础、信念维护和最终状态正确性——这些正是 Ego2World 设计要凸显的能力。

本工作的主要贡献如下：  
- **一个基于真实视频的可执行基准测试**。Ego2World 将 HD-EPIC 的第一人称烹饪标注编译成用于部分观察下具身规划的隐藏世界图转换环境，无需合成场景或手工设计的动力学。  
- **一个视频到世界的编译管道和隐藏世界协议**。我们从视频标注中提取可重用的转换规则以构建可执行的片段，并将隐藏世界图 \( G_{w,t} \) 与代理信念图 \( G_{b,t} \) 分离，使信念维护和重新规划直接可测量。  
- **一个带有可操作发现的诊断评估套件**。我们证明了动作重叠高估了物理状态成功，信念维护比动作词汇更重要，以及不确定性感知的记忆选择对于长跨度规划至关重要。

## 2 相关工作  

##### 第一人称视频数据集与程序化理解  
第一人称视频数据集为研究真实环境中的人类活动提供了丰富的基础。EPIC-KITCHENS (Damen et al., 2018, 2022) 引入了大规模无脚本厨房视频，带有密集的动词-名词动作标注，而 EPIC-KITCHENS VISOR (Darkhalil et al., 2022) 进一步为经历转换性交互的物体添加了像素级别的物体标注。Ego4D (Grauman et al., 2022) 将第一人称视频收集扩展到各种日常活动，而 Ego4D GoalStep (Song et al., 2023) 引入了用于程序化理解的分层目标-步骤标注。Ego2World 使用的源数据集 HD-EPIC (Perrett et al., 2025) 提供了密集的厨房特定标注，包括食谱步骤、细粒度动作、食材、物体移动、音频事件以及通过数字孪生在 3D 中落地的物体掩码。这些数据集提供了真实的视觉观察和丰富的程序化结构，但它们是静态的：它们不支持动作执行、状态转换反馈或失败后的重新规划。Ego2World 在此基础上，将真实的第一人称标注转换为可执行的基准测试。与手动编写模拟器不同，标注捕获了真实非脚本活动中的自然物体布局、动作顺序和长尾交互；如第 5.3 节所示，用直接的 LLM 合成替代它们会产生 48% 的幻觉率。

##### 具身模拟器与家庭任务基准测试  
交互式模拟器使具身代理能够执行动作并接收环境反馈。AI2-THOR (Kolve et al., 2017) 提供了交互式家庭场景，ALFRED (Shridhar et al., 2020) 在此基础上构建了语言条件下的家庭任务。VirtualHome (Puig et al., 2018) 将家庭活动表示为可执行程序，而 BEHAVIOR (Li et al., 2023) 定义了大量现实活动，带有符号目标条件和中间进度指标。更近期的基准测试如 PARTNR (Chang et al., 2025) 将具身评估扩展到协作多智能体设置。这些环境是可执行的，但其场景和转换动态通常由模拟器定义，而不是从真实的第一人称视频标注编译而来。相比之下，Ego2World 保留了真实的视觉基础，同时添加了一个可执行的符号层用于状态变化推理。

##### 用于具身规划的 LLM 和 VLM 代理  
大型语言和视觉-语言模型已被广泛用于具身规划。SayCan (Ahn et al., 2023) 将语言模型先验与机器人能力结合用于技能选择。Inner Monologue (Huang et al., 2023) 利用来自环境的语言反馈支持重新规划。ProgPrompt (Singh et al., 2023) 和 Code as Policies (Liang et al., 2023) 将规划形式化为程序生成。SayPlan (Rana et al., 2023) 将 LLM 规划落地到 3D 场景图中，并利用模拟器反馈进行迭代重新规划，而 RePLan (Skreta et al., 2024) 研究了在视觉反馈下的执行失败恢复。Embodied Agent Interface (Li et al., 2024) 将基于 LLM 的具身评估形式化为模块化组件，并提供了细粒度的错误类型指标。这些工作展示了基于语言规划和重新规划的潜力，但它们通常在现有模拟器或任务环境中评估代理。Ego2World 是互补的：它提供了一个专门设计用于测试这些代理是否能在部分观察下维护和更新信念状态的基准测试。表 1 总结了这些差异，并突出了区分 Ego2World 与先前静态数据集和模拟器定义基准测试的世界/信念分离。

**表1：与代表性相关基准测试的比较。** “可执行”意味着环境支持动作执行和状态转换。“信念状态评估”表示基准测试明确将隐藏世界状态与代理端记忆分开。  

图1：Ego2World 概述。我们将真实世界厨房视频标注转换为可执行的符号环境。视频标注首先被归一化为原始动作、可执行技能、任务和片段。这些结构随后被编译成精选的转换规则库和一个隐藏的可执行世界图。在评估过程中，代理仅接收部分观察，维护自己的信念图，基于此信念进行规划，执行落地技能，并在模拟器反馈指示无效转换时重新规划。

## 3 基准测试概述  

Ego2World 的目标是将静态的第一人称厨房视频标注转换为一个用于部分观察下具身规划的可执行基准测试。与仅仅评估代理能否从视频中预测合理的动作序列不同，Ego2World 评估一个具身代理是否能够进行规划、更新记忆、处理状态变化，并在其当前信念与隐藏环境状态不一致时重新规划。我们将真实世界的第一人称视频标注编译成一个由从整个数据集提取的*世界规则*驱动的符号模拟器。我们将此模拟器称为*视频编译符号模拟器* (VCSS)。VCSS 维护一个隐藏的世界图 \( G_{w,t} \)，代表真实的环境状态，而代理维护一个独立的信念图 \( G_{b,t} \)。代理从不直接观察 \( G_{w,t} \)。相反，它通过一个观察函数接收来自原始第一人称视频的视觉证据和描述局部状态转换的文本反馈。因此，规划是在信念图 \( G_{b,t} \) 上进行的，而不是在隐藏的世界图 \( G_{w,t} \) 上。图1 提供了高级协议概述；详细的标注到环境的转换过程...

Ego2World：将第一人称烹饪视频编译为可执行世界以进行信念状态规划

相似文章

WorldReasonBench：将视频生成器作为未来世界状态预测器进行人类对齐的压力测试

MultiWorld：可扩展的多智能体多视角视频世界模型

何时信任想象：世界行动模型的自适应动作执行

用于显式问题求解器建模的认知智能体编译

SimWorld Studio：利用进化型代码代理为具身智能体学习自动生成环境

提交意见反馈