世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers 论文

摘要

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。

视觉-语言-行动(Vision-Language-Action,VLA)模型在具身策略学习中取得了强大的语义泛化能力,但它们仅学习反应式的观察-行动映射,并未显式建模物理世界在干预下的演化过程。越来越多的研究工作致力于通过在世界模型(即环境动态的预测性模型)中集成行动生成流水线来解决这一局限性。我们将这一新兴范式称为世界行动模型(World Action Models,WAMs):一类具身基础模型,它将预测性状态建模与行动生成相统一,其目标是对未来状态和行动联合分布进行建模,而不仅仅是行动本身。然而,现有文献在架构、学习目标和应用场景方面仍然分散,缺乏统一的概念框架。我们对 WAMs 进行了形式化定义,并将其与相关概念区分开来,追溯了促生该范式的 VLA 与世界模型研究的基础及早期融合过程。我们将现有方法组织成级联式(Cascaded)与联合式(Joint) WAMs 的结构化分类体系,并根据生成模态、条件机制和行动解码策略进行进一步细分。我们系统地分析了推动 WAMs 发展的数据生态系统,涵盖机器人遥操作、便携式人类演示、仿真以及互联网规模的以自我为中心的视频数据,并综合了围绕视觉保真度、物理常识和行动合理性组织的最新评估协议。总体而言,本综述首次系统性地阐述了 WAMs 领域的现状,澄清了关键架构范式及其权衡,并指出了这个快速发展的领域面临的开放挑战与未来机遇。
查看原文
查看缓存全文

缓存时间: 2026/05/13 08:11

论文页 - 世界动作模型:具身智能的下一个前沿

来源:https://huggingface.co/papers/2605.12090 作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

世界动作模型(World Action Models)将预测状态建模与动作生成统一起来,用于具身策略学习,从而形成了一个连贯的框架,用于理解环境动态和预测动作。

视觉-语言-动作(VLA)模型在具身策略学习(https://huggingface.co/papers?q=embodied%20policy%20learning)中取得了强大的语义泛化能力,但它们仅学习反应式的观察至动作映射,并未显式建模物理世界在干预下如何演化。越来越多的研究通过整合世界模型(即对环境动态的预测模型)到动作生成(https://huggingface.co/papers?q=action%20generation)管道中来解决这一局限性。我们将这种新兴范式称为世界动作模型(https://huggingface.co/papers?q=World%20Action%20Models)(WAMs):一种统一的具身基础模型,将预测状态建模(https://huggingface.co/papers?q=predictive%20state%20modeling)与动作生成(https://huggingface.co/papers?q=action%20generation)相结合,其目标是针对未来状态和动作的联合分布,而不仅仅是针对动作本身。然而,现有文献在架构、学习目标和应用场景方面仍然碎片化,缺乏统一的理论框架。我们正式定义了 WAMs 并将其与相关概念区分开来,追溯了导致该范式出现的 VLA 与世界模型研究的早期基础及融合。我们将现有方法组织成一种结构化的分类体系,分为级联式(Cascaded)和联合式(Joint)WAMs,并进一步按生成模态、条件机制和动作解码策略进行细分。我们系统分析了推动 WAMs 发展的数据生态系统,涵盖机器人遥操作、便携式人类演示、仿真以及互联网规模的第一人称视角视频,并综合整理了围绕视觉保真度(https://huggingface.co/papers?q=visual%20fidelity)、物理常识(https://huggingface.co/papers?q=physical%20commonsense)和动作合理性(https://huggingface.co/papers?q=action%20plausibility)组织的新兴评估协议。总体而言,本综述首次系统梳理了 WAMs 的全貌,阐明了关键架构范式及其权衡,并指出了这一快速发展领域中的开放挑战和未来机遇。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12090) 查看 PDF (https://arxiv.org/pdf/2605.12090) 项目页面 (https://openmoss.github.io/Awesome-WAM/) GitHub36 (https://github.com/OpenMOSS/Awesome-WAM) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12090)

引用该论文的模型 0

没有模型链接到该论文

在模型的 README.md 中引用 arxiv.org/abs/2605.12090 以从此页面链接它。

引用该论文的数据集 0

没有数据集链接到该论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.12090 以从此页面链接它。

引用该论文的 Space 0

没有 Space 链接到该论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.12090 以从此页面链接它。

包含该论文的收藏集 0

没有收藏集包含该论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

World Action Models: 综述

Hugging Face Daily Papers

本综述全面概述了世界行动模型(WAMs)——即生成未来状态以辅助决策的预测行动系统——并根据所需输出和设计选择对现有工作进行分类。

世界-动作交互模型的DAWN

Hugging Face Daily Papers

本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。