World Action Models: 综述
摘要
本综述全面概述了世界行动模型(WAMs)——即生成未来状态以辅助决策的预测行动系统——并根据所需输出和设计选择对现有工作进行分类。
查看缓存全文
缓存时间: 2026/06/23 05:41
论文页面 - 世界动作模型:综述
来源:https://huggingface.co/papers/2606.20781
摘要
世界动作模型是一类预测-动作系统,能够生成未来状态以辅助决策,其设计在表征丰富性与计算约束之间寻求平衡。
世界动作模型(World Action Models,简称WAMs)是具身预测-动作模型(embodied predictive-action models),它们能够对未来进行预测,从而为动作提供依据。近期WAMs复用了大型视频生成模型(video generation models),而另一条并行路线则依赖语言或视觉-语言骨干网络(vision-language backbones),无需视频生成核心。这种快速扩张模糊了广义世界模型、视频生成模型(video generation models)、基于动作的视频世界模型、视觉-语言-动作策略(Vision-Language-Action policies)以及WAMs之间的界限。本综述为该领域提供了统一的阐述。首先澄清了这些边界,然后通过两种互补视角组织现有工作。第一种视角考察每种方法需生成什么,涵盖渲染未来、隐式未来和无需视频生成的动作推理。第二种视角则从预测基底(predictive substrate)、骨干网络、动作耦合(action coupling)和部署模式(deployment regime)四个维度分解每种方法。这一剖析支持了对可交互性(interactability)、因果性(causality)、持久性、物理合理性(physical plausibility)和泛化能力(generalization)的统一讨论,随后涉及数据、评估和开放挑战。在这些维度上,一个一致的设计模式浮现出来:WAMs并非仅仅是在视频生成器上附加动作头,而是通过设计权衡表征丰富性与计算、内存、延迟和动作标签成本的一类预测-动作方法。该领域正朝着生成更少未来内容的同时保留控制所需信息的方向发展。综述主页见 https://world-action-models.github.io/。
查看arXiv页面(https://arxiv.org/abs/2606.20781)查看PDF(https://arxiv.org/pdf/2606.20781)项目页面(https://world-action-models.github.io/)GitHub(https://github.com/world-action-models/awesome-world-action-models)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20781)
在你的agent中获取这篇论文:
hf papers read 2606.20781
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型关联本论文
在模型README.md中引用arxiv.org/abs/2606.20781即可从本页面链接到它。
引用本论文的数据集0
没有数据集关联本论文
在数据集README.md中引用arxiv.org/abs/2606.20781即可从本页面链接到它。
引用本论文的Spaces0
没有Space关联本论文
在Space README.md中引用arxiv.org/abs/2606.20781即可从本页面链接到它。
包含本论文的收藏0
没有收藏包含本论文
将本论文添加到一个收藏(https://huggingface.co/new-collection)中即可从本页面链接到它。
相似文章
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
世界-动作交互模型的DAWN
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
世界模型:架构、方法、推理范式与应用的全面综述
关于世界模型的全面综述,提供了一个多轴分类体系,涵盖架构、方法、推理策略以及跨AI领域的应用,包括Dreamer、MuZero和Sora等关键系统。
World-Language-Action模型:统一世界建模、语言推理与动作合成
本文介绍了World-Language-Action(WLA)模型,这是一种具身基础模型,能够从文本、图像和机器人状态中联合预测文本子任务、子目标图像和机器人动作,在模拟和真实环境中实现了最先进的多任务与长周期学习能力。
AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。