AGWM:面向具有组合先决条件环境的具身世界模型

arXiv cs.AI 论文

摘要

本文提出了 AGWM,一种基于可供性的世界模型,该模型使用动态先决条件图来跟踪具有组合先决条件环境中的动作可执行性。实验表明,与标准世界模型相比,AGWM 能够降低预测误差并提高泛化能力。

arXiv:2605.06841v1 公告类型:新文章 摘要:在基于模型的学习中,智能体通过根据世界模型的预测模拟轨迹来学习行为。标准的世界模型通常学习一个平稳的转移函数,将状态和动作映射到下一个状态;当某个动作和结果在训练数据中频繁共现时,模型往往倾向于将这种相关性内化为一般的因果规则,而忽略了动作的前置条件。然而,在交互式环境中,智能体的动作可以重塑未来的可供性空间。在每个时间步,只有在满足其先决条件后,某个动作才可执行;或者当其先决条件被破坏时,该动作变得不可执行。我们将此类事件称为结构变化事件(SC events)。因此,传统的世界模型往往难以确定在给定状态下某个动作是否可执行,特别是在多步预测中。每一步想象都基于错误的可供性状态,因此预测误差在展开 horizon 期间不断累积。在本文中,我们提出了 AGWM(基于可供性的世界模型),它学习一种抽象的可供性结构,表示为先决条件依赖的有向无环图(DAG),以显式跟踪动作的动态可执行性。在基于游戏的模拟环境上的实验证明了我们方法的有效性,实现了更低的多步预测误差、对新配置的更好泛化能力以及更高的可解释性。
查看原文
查看缓存全文

缓存时间: 2026/05/11 07:08

# AGWM:面向具有组合先决条件环境的具身世界模型

来源:https://arxiv.org/html/2605.06841
Qinshi Zhang1 Weipeng Deng2 Zhihan Jiang3 Jiaming Qu4 Qianren Li5 Weitao Xu5 Ray LC5
1加州大学圣地亚哥分校 2香港大学 3哥伦比亚大学 4亚马逊 5香港城市大学
[email protected] [email protected] [email protected] [email protected] [email protected] [email protected] [email protected]

###### 摘要

在基于模型的学习中,智能体通过模拟基于世界模型预测的轨迹来学习行为。标准的世界模型通常学习一个平稳的转移函数,将状态和动作映射到下一个状态;当某个动作和结果在训练数据中经常共现时,模型倾向于将这种相关性内化为一般的因果规则,而忽略动作的先决条件。然而,在交互式环境中,智能体的动作可以重塑未来的可供性(affordance)空间。在每个时间步,只有在满足先决条件后,动作才可执行;若先决条件被破坏,则动作不可执行。我们将此类事件称为*结构改变事件*(SC events)。因此,传统的世界模型往往无法判断给定动作在当前状态下是否可执行,尤其是在多步预测中。每一步的想象都基于错误的可供性状态,因此预测误差会随着 rollout 范围(horizon)的增加而累积。在本文中,我们提出了 AGWM(具身世界模型,Affordance-Grounded World Model),它学习一种抽象的可供性结构,表示为依赖关系的有向无环图(DAG),以显式跟踪动作的动态可执行性。在游戏模拟环境上的实验表明,我们的方法通过实现更低的多步预测误差、对新颖配置的更好泛化能力以及增强的可解释性,证明了其有效性。

> **图1:AGWM 概览。** 上方:智能体遍历一个四层科技树;SC 事件(彩色标记)逐步扩展适用的动作集。下方:AGWM 分为三个阶段:(1) 通过 SC 分类器检测 SC 事件;(2) 更新动态可供性图以追踪活跃(绿色)、前沿(蓝色)和锁定(紫色)能力,无需神谕输入;(3) 通过用图嵌入门控 RSSM rollout 进行想象,从而仅考虑可行的动作序列。

## 1 引言

世界模型在神经网络参数中编码环境动态,学习状态、动作及其结果之间的统计关联 (Ha & Schmidhuber, 2018; Ke et al., 2019; Li et al., 2020)。给定一个学习到的世界模型,智能体可以在无需额外与环境交互的情况下展开想象的轨迹,并选择最大化预期回报的动作序列 (Hafner et al., 2023)。标准的世界模型通常能很好地重构观测值,但它们并不建模可供性,即可供性是指当前可供智能体使用的动作集 (Gibson, 1979)。它们可以预测某个动作之后会发生什么,但不能可靠地确定该动作在当前状态下是否可执行 (Khetarpal et al., 2020)。在开放式环境中,如机器人操作和自主规划,智能体可能会自信地执行物理上或逻辑上不可能的动作序列,追求永远无法达到的目标,或采取具有现实后果的不可逆步骤。在安全关键型设置中,此类故障可能会导致智能体基于在实践中无法实现的预测未来状态,选择不可逆或高成本的动作 (Amodei et al., 2016; Berkenkamp et al., 2017)。

当智能体的动作改变未来的可执行动作集时,这个问题变得至关重要,我们将这些事件称为**结构改变事件**(Structure-Changing Events, SC Events)。此类事件在具有**组合先决条件**的领域很常见。例如,在 Craftax 中制作木制镐解锁了采矿石 (Hafner, 2022);在 MiniHack 中喝下药水使穿越熔岩成为可能 (Samvelyan et al., 2021);在 ALFWorld 中,在水槽附近拿起土豆可以实现清洗 (Shridhar et al., 2021)。在长远的时间范围内,SC 事件可能会级联,随着组合深度的增加,每个事件都会扩展可执行动作集,并导致联合可供性空间的指数级增长。标准的世界模型无法可靠地跟踪每次 SC 事件后哪些动作是可执行的,因此在多步 rollout 中会累积复合预测误差。关于结构化世界模型的前期工作探索了上下文依赖的因果图 (Hwang et al., 2024),但这些方法捕捉的是固定因果机制内的转移动态。它们从观测数据中推断因果结构,而不表示控制每个动作何时可用的先决条件,因此仍然无法防止想象过程中的规则违反。从根本上说,隐式世界模型在处理组合可供性结构时存在困难,因为它们无法从“这个动作会做什么”中回答“现在允许执行这个动作吗?”这个问题,因此无法重组已知的先决条件来推理在训练期间未见过的深度下的动作可用性。

在本文中,我们提出**具身世界模型**(Affordance-Grounded World Model, AGWM),以解决隐式世界模型的两种故障模式:多步想象误差的累积,以及在测试时出现新颖规则组合时泛化失败。AGWM 不再让可供性结构保持隐式,而是显式地跟踪在每个时间步哪些可供性当前处于活跃状态,哪些可供性在满足先决条件后新近可达(前沿),以及先决条件关系在环境的 DAG 模式中是如何组织的。通过对此显式表示进行条件化处理,AGWM 能够立即适应 SC 事件,而不是依赖于潜在状态的漂移。在多个基准测试中,AGWM 显著减少了多步想象误差,并在没有神谕监督的情况下泛化到新颖的可供性配置。

我们的贡献如下:

- (1) **形式化**。我们形式化了 SC 事件,并确定了隐式世界模型在可供性结构变化下的两种关键故障模式。
- (2) **AGWM**。我们提出了 AGWM,结合 SC 分类器和动态可供性图,强制执行前沿掩码约束以显式跟踪可供性变化。
- (3) **泛化能力**。我们通过实证表明,自我演化的可供性图可以泛化到训练期间未见过的新颖规则组合。

## 2 相关工作

世界模型学习环境动态,使智能体能够在想象中规划并选择最佳动作序列 (Ha & Schmidhuber, 2018; Hafner et al., 2020)。DreamerV3 (Hafner et al., 2023) 在潜在空间中展开想象的轨迹,后续工作探索了 Transformer、扩散模型和 JEPA 架构。这些方法有一个共同的公式:动作对转移函数进行条件化处理,但模型无法区分动作的合法性与转移动态。为了解决这个问题,MuZero (Schrittwieser et al., 2020) 在 MCTS 规划中引入了合法动作掩码,而 ResWM (Zhang et al., 2026) 分解了动作引起的变化。然而,一个共同的局限性仍然存在:动作的合法性被视为当前状态的静态函数,不随智能体的行动而演变。我们提议显式跟踪当前动作的合法性以及执行后能力的演变,使世界模型的预测过程完全可追溯。

更根本地,强化学习中的可供性建模 (Khetarpal et al., 2020) 形式化了基于智能体能力的有效动作,并提高了规划效率,但将可供性视为未纳入世界模型动态的静态属性。最近的视觉可供性推理 (Wang et al., 2026) 同样将可供性与动态预测解耦。相关的工作通过图网络将显式关系结构引入世界模型 (Kipf et al., 2020; Huang et al., 2022; Li et al., 2020),但图的拓扑结构在训练时是固定的,不能随环境状态演变。最近的因果图工作认识到因果结构可能随状态而变化 (Hwang et al., 2024; Zhao et al., 2025),但切换是由潜在元状态索引的,而不是与特定的智能体动作因果绑定。

从非平稳性的角度也研究了演化的环境动态。隐藏参数 MDP (Doshi-Velez & Konidaris, 2016) 和元强化学习 (Wang et al., 2016) 将任务变化建模为潜在参数或任务分布,允许智能体适应不同的动态机制。WALL-E (Zhou et al., 2025) 使用大语言模型从轨迹中提取 if-then 符号规则,实现可解释的策略学习。Gospodinov et al. (2024) 将非平稳性处理直接嵌入到 DreamerV3 风格的世界模型中,连续估计潜在空间中的分布漂移并在线适应动态参数。这些方法中的每一种都建模了跨任务或随时间变化的动态,但都没有将动作触发的可供性扩展作为首要建模目标。

贯穿这三条线索的共同盲点是**归因**:哪个智能体动作导致了这种可供性变化,何时发生?在级联科技树中,t 步的一个动作可以激活跨越多个层级的几个下游可供性边缘;每个激活都是由可识别的动作触发的从 0 到 1 的转换,而不是背景动态漂移或潜在机制转换。固定图模型使用训练时的拓扑进行预测,完全错过了新激活的边缘。因果切换器将转换表示为预拟合机制分布之间的移动,将变化归因于潜在元状态而非动作。非平稳性模型检测到动态变化,但无法识别原因。我们提出的设计直接针对归因:$g_t$ 是通过固定 DAG 模式从当前观测中每时间步派生的,因此节点状态和前沿掩码中的每次转换都与其引发的 SC 事件相关联。由于图显式编码了哪些可供性当前可达(前沿掩码)以及哪些先决条件已满足(边状态),模型可以表示反映新颖规则组合的可供性状态,这是受限于其训练分布机制的潜在索引方法在结构上无法提供的能力。

## 3 方法:具身世界模型

### 3.1 问题形式化

#### 结构改变事件。

我们将环境建模为马尔可夫决策过程(MDP)$(\mathcal{S}, \mathcal{A}, T, R, \gamma)$,其中 $\mathcal{S}$ 是状态空间,$\mathcal{A}$ 是动作空间,$T: \mathcal{S} \times \mathcal{A} \to \mathcal{S}$ 是转移函数,$R$ 是奖励函数,$\gamma \in [0, 1)$ 是折扣因子。如果动作 $a_t$ 在状态 $s_t$ 下改变了可供性集,则该动作是**结构改变**(SC)的:

$$
\text{SC}(s_t, a_t) = \mathbb{1}[\mathcal{F}(s_{t+1}) \neq \mathcal{F}(s_t)], \quad (1)
$$

其中 $\mathcal{F}(s) \subseteq \mathcal{A}$ 表示状态 $s$ 下的*适用动作集*,即环境先决条件成立的动作。SC 事件不同于普通的状态变化:普通动作(例如移动或观察)更新状态但保留可供性集,而结构改变动作(例如制作或装备)同时改变两者。隐式世界模型在此设置下通过两种机制失败。首先,多步想象遭受累积误差:没有显式的可供性状态,每次 rollout 步骤都基于过时的动作先决条件进行条件化处理,预测误差会累积。我们在 MiniHack 上直接观察到了这一点:Vanilla 的误差从第 1 步到第 8 步增加了 $73.7$ 倍,而 AGWM 保持在 $5.5$ 倍(表 1)。其次,组合泛化失败:当在 SC 关键决策上评估时,Vanilla 在 KeyDungeon 上达到 $0\%$ CDA,在 Craftax 上达到 $2.5\%$,接近随机基线的 $5.9\%$(表 2),并在分布外的可供性配置上崩溃,而 AGWM 在此情况下达到 $90.9–100\%$ CDA(表 2)。

### 3.2 AGWM

#### 动态可供性图。

> **图2:AGWM 系统概览。** 环境向 AGWM 提供奖励和观测。SC 分类器预测 $(h_t, a_t, e_t)$ 是否触发结构改变事件,并信号通知动态可供性图自我演化 $g_t$。图嵌入 $e_t$ 对 RSSM 世界模型进行条件化处理,将想象 rollout 门控到当前可供性前沿。想象规划循环使用想象轨迹来优化 Actor-Critic 策略。

为了解决这些问题,我们将 $\mathcal{F}(s)$ 表示为结构化特征向量 $g_t \in \{0, 1\}^d$,每时间步从当前观测中派生,我们称之为**可供性图**。每个环境都有一个固定的 DAG 模式,定义 $N$ 个可供性节点(物品、工具、结构)和 $E$ 条先决条件边(科技树依赖关系);$g_t$ 连接三个二进制组件:*节点状态*($N$ 维),编码当前实现了哪些可供性;*前沿掩码*($N$ 维),编码哪些可供性新近可达(所有先决条件已满足但尚未实现);以及*边状态*($E$ 维),指示哪些先决条件边当前已满足。模型学习预测图在每一步如何转换:

$$
\hat{g}_{t+1} = f_{\text{graph}}(h_t, a_t, g_t), \quad (2)
$$

其中 $h_t$ 是递归隐藏状态,$f_{\text{graph}}$ 是学习到的预测器。关键的设计属性是*前沿掩码约束*:只有当 DAG 先决条件已经满足时,可供性才能变得活跃,这符合科技树的 OR-单调结构,并使得 $d$ 个独立的二进制预测成为可能,而不是对完整的 $2^d$ 可供性空间进行联合建模。

图 3 对比了传统世界模型和 AGWM 的图形模型。在标准的 POMDP 世界模型中,动作 $a^t$ 无条件地馈送到下一个状态 $s^{t+1}$...

相似文章

世界-动作交互模型的DAWN

Hugging Face Daily Papers

本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。

多智能体世界模型(3分钟阅读)

TLDR AI

γ-World 是一个生成式多智能体世界模型,支持独立可控、排列对称的智能体,采用 Simplex Rotary Agent Encoding 和 Sparse Hub Attention 技术,实现了实时 24 FPS 的推演,并具有从两个玩家到四个玩家的零样本泛化能力。