World Action Models: 综述

Hugging Face Daily Papers 2026/06/18 00:00 论文

world-action-models survey embodied-ai predictive-models decision-making action-models

摘要

本综述全面概述了世界行动模型（WAMs）——即生成未来状态以辅助决策的预测行动系统——并根据所需输出和设计选择对现有工作进行分类。

世界行动模型（WAMs）是具身预测行动模型，能够生成可供行动利用的未来预测。近期WAMs重新利用大型视频生成模型，而另一条并行路线则依赖语言或视觉-语言骨干网络，不包含视频生成核心。这种快速扩展模糊了广义世界模型、视频生成模型、基于行动的影像世界模型、视觉-语言-行动策略以及WAMs之间的界限。本综述为该领域提供了一个统一的阐述。它首先厘清这些边界，然后通过两个互补的视角组织现有工作。第一个视角关注每个方法需要生成什么，涵盖渲染的未来状态、潜在未来状态以及无需视频生成的行动推理。第二个视角从预测基质、骨干网络、行动耦合和部署模式四个方面分解每个方法。这种剖析支持对交互性、因果性、持久性、物理合理性和泛化能力进行统一讨论，随后涉及数据、评估和开放性挑战。沿着这些轴线，一个一致的设计模式浮现：WAMs并非简单的带行动头的视频生成器，而是预测行动方法，其设计选择在表示丰富性与计算、内存、延迟和行动标签成本之间进行权衡。该领域正朝着生成更少未来内容但保留控制所需信息的方法发展。本综述主页见https://world-action-models.github.io/。

查看原文

查看缓存全文

缓存时间: 2026/06/23 05:41

论文页面 - 世界动作模型：综述

来源：https://huggingface.co/papers/2606.20781

摘要

世界动作模型是一类预测-动作系统，能够生成未来状态以辅助决策，其设计在表征丰富性与计算约束之间寻求平衡。

世界动作模型（World Action Models，简称WAMs）是具身预测-动作模型（embodied predictive-action models），它们能够对未来进行预测，从而为动作提供依据。近期WAMs复用了大型视频生成模型（video generation models），而另一条并行路线则依赖语言或视觉-语言骨干网络（vision-language backbones），无需视频生成核心。这种快速扩张模糊了广义世界模型、视频生成模型（video generation models）、基于动作的视频世界模型、视觉-语言-动作策略（Vision-Language-Action policies）以及WAMs之间的界限。本综述为该领域提供了统一的阐述。首先澄清了这些边界，然后通过两种互补视角组织现有工作。第一种视角考察每种方法需生成什么，涵盖渲染未来、隐式未来和无需视频生成的动作推理。第二种视角则从预测基底（predictive substrate）、骨干网络、动作耦合（action coupling）和部署模式（deployment regime）四个维度分解每种方法。这一剖析支持了对可交互性（interactability）、因果性（causality）、持久性、物理合理性（physical plausibility）和泛化能力（generalization）的统一讨论，随后涉及数据、评估和开放挑战。在这些维度上，一个一致的设计模式浮现出来：WAMs并非仅仅是在视频生成器上附加动作头，而是通过设计权衡表征丰富性与计算、内存、延迟和动作标签成本的一类预测-动作方法。该领域正朝着生成更少未来内容的同时保留控制所需信息的方向发展。综述主页见 https://world-action-models.github.io/。

查看arXiv页面（https://arxiv.org/abs/2606.20781）查看PDF（https://arxiv.org/pdf/2606.20781）项目页面（https://world-action-models.github.io/）GitHub（https://github.com/world-action-models/awesome-world-action-models）加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.20781）

在你的agent中获取这篇论文：

hf papers read 2606.20781

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型关联本论文

在模型README.md中引用arxiv.org/abs/2606.20781即可从本页面链接到它。

引用本论文的数据集0

没有数据集关联本论文

在数据集README.md中引用arxiv.org/abs/2606.20781即可从本页面链接到它。

引用本论文的Spaces0

没有Space关联本论文

在Space README.md中引用arxiv.org/abs/2606.20781即可从本页面链接到它。

包含本论文的收藏0

没有收藏包含本论文

将本论文添加到一个收藏（https://huggingface.co/new-collection）中即可从本页面链接到它。

World Action Models: 综述

论文页面 - 世界动作模型：综述

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的Spaces0

包含本论文的收藏0

相似文章

世界行动模型：具身智能的下一个前沿

世界-动作交互模型的DAWN

世界模型：架构、方法、推理范式与应用的全面综述

World-Language-Action模型：统一世界建模、语言推理与动作合成

AHA-WAM：异步视野自适应世界动作建模与观测引导上下文路由

提交意见反馈