世界行动模型：具身智能的下一个前沿

Hugging Face Daily Papers 2026/05/12 00:00 论文

embodied-ai world-models vlm robotics survey foundation-models

摘要

本综述论文介绍了世界行动模型（World Action Models，WAMs），这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系，分析了数据生态系统，并概述了这一新兴范式的评估协议。

视觉-语言-行动（Vision-Language-Action，VLA）模型在具身策略学习中取得了强大的语义泛化能力，但它们仅学习反应式的观察-行动映射，并未显式建模物理世界在干预下的演化过程。越来越多的研究工作致力于通过在世界模型（即环境动态的预测性模型）中集成行动生成流水线来解决这一局限性。我们将这一新兴范式称为世界行动模型（World Action Models，WAMs）：一类具身基础模型，它将预测性状态建模与行动生成相统一，其目标是对未来状态和行动联合分布进行建模，而不仅仅是行动本身。然而，现有文献在架构、学习目标和应用场景方面仍然分散，缺乏统一的概念框架。我们对 WAMs 进行了形式化定义，并将其与相关概念区分开来，追溯了促生该范式的 VLA 与世界模型研究的基础及早期融合过程。我们将现有方法组织成级联式（Cascaded）与联合式（Joint） WAMs 的结构化分类体系，并根据生成模态、条件机制和行动解码策略进行进一步细分。我们系统地分析了推动 WAMs 发展的数据生态系统，涵盖机器人遥操作、便携式人类演示、仿真以及互联网规模的以自我为中心的视频数据，并综合了围绕视觉保真度、物理常识和行动合理性组织的最新评估协议。总体而言，本综述首次系统性地阐述了 WAMs 领域的现状，澄清了关键架构范式及其权衡，并指出了这个快速发展的领域面临的开放挑战与未来机遇。

查看原文

查看缓存全文

缓存时间: 2026/05/13 08:11

论文页 - 世界动作模型：具身智能的下一个前沿

来源：https://huggingface.co/papers/2605.12090 作者：

摘要

世界动作模型（World Action Models）将预测状态建模与动作生成统一起来，用于具身策略学习，从而形成了一个连贯的框架，用于理解环境动态和预测动作。

视觉-语言-动作（VLA）模型在具身策略学习（https://huggingface.co/papers?q=embodied%20policy%20learning）中取得了强大的语义泛化能力，但它们仅学习反应式的观察至动作映射，并未显式建模物理世界在干预下如何演化。越来越多的研究通过整合世界模型（即对环境动态的预测模型）到动作生成（https://huggingface.co/papers?q=action%20generation）管道中来解决这一局限性。我们将这种新兴范式称为世界动作模型（https://huggingface.co/papers?q=World%20Action%20Models）（WAMs）：一种统一的具身基础模型，将预测状态建模（https://huggingface.co/papers?q=predictive%20state%20modeling）与动作生成（https://huggingface.co/papers?q=action%20generation）相结合，其目标是针对未来状态和动作的联合分布，而不仅仅是针对动作本身。然而，现有文献在架构、学习目标和应用场景方面仍然碎片化，缺乏统一的理论框架。我们正式定义了 WAMs 并将其与相关概念区分开来，追溯了导致该范式出现的 VLA 与世界模型研究的早期基础及融合。我们将现有方法组织成一种结构化的分类体系，分为级联式（Cascaded）和联合式（Joint）WAMs，并进一步按生成模态、条件机制和动作解码策略进行细分。我们系统分析了推动 WAMs 发展的数据生态系统，涵盖机器人遥操作、便携式人类演示、仿真以及互联网规模的第一人称视角视频，并综合整理了围绕视觉保真度（https://huggingface.co/papers?q=visual%20fidelity）、物理常识（https://huggingface.co/papers?q=physical%20commonsense）和动作合理性（https://huggingface.co/papers?q=action%20plausibility）组织的新兴评估协议。总体而言，本综述首次系统梳理了 WAMs 的全貌，阐明了关键架构范式及其权衡，并指出了这一快速发展领域中的开放挑战和未来机遇。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12090) 查看 PDF (https://arxiv.org/pdf/2605.12090) 项目页面 (https://openmoss.github.io/Awesome-WAM/) GitHub36 (https://github.com/OpenMOSS/Awesome-WAM) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12090)

引用该论文的模型 0

没有模型链接到该论文

在模型的 README.md 中引用 arxiv.org/abs/2605.12090 以从此页面链接它。

引用该论文的数据集 0

没有数据集链接到该论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.12090 以从此页面链接它。

引用该论文的 Space 0

没有 Space 链接到该论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.12090 以从此页面链接它。

包含该论文的收藏集 0

没有收藏集包含该论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

世界行动模型：具身智能的下一个前沿

论文页 - 世界动作模型：具身智能的下一个前沿

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Space 0

包含该论文的收藏集 0

相似文章

World Action Models: 综述

@_akhaliq: 世界行动模型综述

世界-动作交互模型的DAWN

World-Language-Action模型：统一世界建模、语言推理与动作合成

Light-WAM：基于状态融合动作解码的高效世界动作模型

提交意见反馈