世界行动模型:具身智能的下一个前沿
摘要
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
查看缓存全文
缓存时间: 2026/05/13 08:11
论文页 - 世界动作模型:具身智能的下一个前沿
来源:https://huggingface.co/papers/2605.12090 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
世界动作模型(World Action Models)将预测状态建模与动作生成统一起来,用于具身策略学习,从而形成了一个连贯的框架,用于理解环境动态和预测动作。
视觉-语言-动作(VLA)模型在具身策略学习(https://huggingface.co/papers?q=embodied%20policy%20learning)中取得了强大的语义泛化能力,但它们仅学习反应式的观察至动作映射,并未显式建模物理世界在干预下如何演化。越来越多的研究通过整合世界模型(即对环境动态的预测模型)到动作生成(https://huggingface.co/papers?q=action%20generation)管道中来解决这一局限性。我们将这种新兴范式称为世界动作模型(https://huggingface.co/papers?q=World%20Action%20Models)(WAMs):一种统一的具身基础模型,将预测状态建模(https://huggingface.co/papers?q=predictive%20state%20modeling)与动作生成(https://huggingface.co/papers?q=action%20generation)相结合,其目标是针对未来状态和动作的联合分布,而不仅仅是针对动作本身。然而,现有文献在架构、学习目标和应用场景方面仍然碎片化,缺乏统一的理论框架。我们正式定义了 WAMs 并将其与相关概念区分开来,追溯了导致该范式出现的 VLA 与世界模型研究的早期基础及融合。我们将现有方法组织成一种结构化的分类体系,分为级联式(Cascaded)和联合式(Joint)WAMs,并进一步按生成模态、条件机制和动作解码策略进行细分。我们系统分析了推动 WAMs 发展的数据生态系统,涵盖机器人遥操作、便携式人类演示、仿真以及互联网规模的第一人称视角视频,并综合整理了围绕视觉保真度(https://huggingface.co/papers?q=visual%20fidelity)、物理常识(https://huggingface.co/papers?q=physical%20commonsense)和动作合理性(https://huggingface.co/papers?q=action%20plausibility)组织的新兴评估协议。总体而言,本综述首次系统梳理了 WAMs 的全貌,阐明了关键架构范式及其权衡,并指出了这一快速发展领域中的开放挑战和未来机遇。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12090) 查看 PDF (https://arxiv.org/pdf/2605.12090) 项目页面 (https://openmoss.github.io/Awesome-WAM/) GitHub36 (https://github.com/OpenMOSS/Awesome-WAM) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12090)
引用该论文的模型 0
没有模型链接到该论文
在模型的 README.md 中引用 arxiv.org/abs/2605.12090 以从此页面链接它。
引用该论文的数据集 0
没有数据集链接到该论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.12090 以从此页面链接它。
引用该论文的 Space 0
没有 Space 链接到该论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.12090 以从此页面链接它。
包含该论文的收藏集 0
没有收藏集包含该论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
World Action Models: 综述
本综述全面概述了世界行动模型(WAMs)——即生成未来状态以辅助决策的预测行动系统——并根据所需输出和设计选择对现有工作进行分类。
@_akhaliq: 世界行动模型综述
一篇关于世界行动模型的综述论文,涵盖了AI行动和世界模型的最新进展。
世界-动作交互模型的DAWN
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
World-Language-Action模型:统一世界建模、语言推理与动作合成
本文介绍了World-Language-Action(WLA)模型,这是一种具身基础模型,能够从文本、图像和机器人状态中联合预测文本子任务、子目标图像和机器人动作,在模拟和真实环境中实现了最先进的多任务与长周期学习能力。
Light-WAM:基于状态融合动作解码的高效世界动作模型
Light-WAM是一种轻量级世界动作模型,用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督,在保持低推理延迟的同时实现了高性能。