World Action Models: 综述

Hugging Face Daily Papers 论文

摘要

本综述全面概述了世界行动模型(WAMs)——即生成未来状态以辅助决策的预测行动系统——并根据所需输出和设计选择对现有工作进行分类。

世界行动模型(WAMs)是具身预测行动模型,能够生成可供行动利用的未来预测。近期WAMs重新利用大型视频生成模型,而另一条并行路线则依赖语言或视觉-语言骨干网络,不包含视频生成核心。这种快速扩展模糊了广义世界模型、视频生成模型、基于行动的影像世界模型、视觉-语言-行动策略以及WAMs之间的界限。本综述为该领域提供了一个统一的阐述。它首先厘清这些边界,然后通过两个互补的视角组织现有工作。第一个视角关注每个方法需要生成什么,涵盖渲染的未来状态、潜在未来状态以及无需视频生成的行动推理。第二个视角从预测基质、骨干网络、行动耦合和部署模式四个方面分解每个方法。这种剖析支持对交互性、因果性、持久性、物理合理性和泛化能力进行统一讨论,随后涉及数据、评估和开放性挑战。沿着这些轴线,一个一致的设计模式浮现:WAMs并非简单的带行动头的视频生成器,而是预测行动方法,其设计选择在表示丰富性与计算、内存、延迟和行动标签成本之间进行权衡。该领域正朝着生成更少未来内容但保留控制所需信息的方法发展。本综述主页见https://world-action-models.github.io/。
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:41

论文页面 - 世界动作模型:综述

来源:https://huggingface.co/papers/2606.20781

摘要

世界动作模型是一类预测-动作系统,能够生成未来状态以辅助决策,其设计在表征丰富性与计算约束之间寻求平衡。

世界动作模型(World Action Models,简称WAMs)是具身预测-动作模型(embodied predictive-action models),它们能够对未来进行预测,从而为动作提供依据。近期WAMs复用了大型视频生成模型(video generation models),而另一条并行路线则依赖语言或视觉-语言骨干网络(vision-language backbones),无需视频生成核心。这种快速扩张模糊了广义世界模型、视频生成模型(video generation models)、基于动作的视频世界模型、视觉-语言-动作策略(Vision-Language-Action policies)以及WAMs之间的界限。本综述为该领域提供了统一的阐述。首先澄清了这些边界,然后通过两种互补视角组织现有工作。第一种视角考察每种方法需生成什么,涵盖渲染未来、隐式未来和无需视频生成的动作推理。第二种视角则从预测基底(predictive substrate)、骨干网络、动作耦合(action coupling)和部署模式(deployment regime)四个维度分解每种方法。这一剖析支持了对可交互性(interactability)、因果性(causality)、持久性、物理合理性(physical plausibility)和泛化能力(generalization)的统一讨论,随后涉及数据、评估和开放挑战。在这些维度上,一个一致的设计模式浮现出来:WAMs并非仅仅是在视频生成器上附加动作头,而是通过设计权衡表征丰富性与计算、内存、延迟和动作标签成本的一类预测-动作方法。该领域正朝着生成更少未来内容的同时保留控制所需信息的方向发展。综述主页见 https://world-action-models.github.io/。

查看arXiv页面(https://arxiv.org/abs/2606.20781)查看PDF(https://arxiv.org/pdf/2606.20781)项目页面(https://world-action-models.github.io/)GitHub(https://github.com/world-action-models/awesome-world-action-models)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20781)

在你的agent中获取这篇论文:

hf papers read 2606.20781

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型关联本论文

在模型README.md中引用arxiv.org/abs/2606.20781即可从本页面链接到它。

引用本论文的数据集0

没有数据集关联本论文

在数据集README.md中引用arxiv.org/abs/2606.20781即可从本页面链接到它。

引用本论文的Spaces0

没有Space关联本论文

在Space README.md中引用arxiv.org/abs/2606.20781即可从本页面链接到它。

包含本论文的收藏0

没有收藏包含本论文

将本论文添加到一个收藏(https://huggingface.co/new-collection)中即可从本页面链接到它。

相似文章

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。

世界-动作交互模型的DAWN

Hugging Face Daily Papers

本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。

AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers

AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。