ABot-M0.5: 统一移动与操作的世界动作模型

Hugging Face Daily Papers 2026/07/01 00:00 论文

摘要

ABot-M0.5 是一种针对移动操作的新型世界动作模型，通过时间粒度对齐、动作空间解耦和训练-测试一致性提升性能，在长时域和细粒度操作基准上达到了最先进水平。

移动操作是通用机器人的关键能力，但对于当前的具身学习方法而言仍具有挑战性。VLA策略通常是反应式的，缺乏显式的世界建模，而现有的世界动作模型（WAM）与移动操作的结构对齐不良：它们在粗粒度视频块上操作，建模纠缠的导航-操作动作，并在与自回归推理不匹配的监督下训练逆动力学。结果，它们常常缺失细粒度的接触动力学，遭受动作分布冲突，并在长时域推演中累积误差。我们提出ABot-M0.5，一种新的WAM，其构建基于以下洞察：移动操作需要在三个层次上进行对齐——时间粒度、动作空间以及训练-测试一致性。为对齐时间粒度，我们引入了中间潜在动作，用于捕捉局部视觉状态转换，并作为视频潜在表示与具身特定控制之间的桥梁动作空间。为对齐动作空间，我们设计了一种双层级混合Transformer架构，将模态表示与异构动作子空间（例如基座移动和手臂操作）解耦。为对齐推理条件，我们提出了梦想强迫训练策略，该策略在模型预测的视频上逐步训练逆动力学，从而提升自回归预测过程中的训练-测试对齐度和鲁棒性。在具有挑战性的移动和细粒度操作基准上的实验表明，ABot-M0.5在长时域任务成功率与细粒度控制精度两方面均达到了最先进水平。这些结果凸显了粒度对齐、动作解耦且推理一致的世界动作建模的关键重要性。

查看原文

查看缓存全文

缓存时间: 2026/07/02 03:46

论文页面 - ABot-M0.5：统一移动与操作的世界动作模型

来源：https://huggingface.co/papers/2607.00678 作者：

摘要

ABot-M0.5 是一个面向移动操作的世界动作模型，通过时间粒度对齐、动作空间解耦以及自回归预测中的训练-测试一致性，提升了性能表现。

移动操作（https://huggingface.co/papers?q=Mobile%20manipulation）是通用机器人的关键能力，但目前对具身学习方法而言仍具挑战性。VLA 策略通常是反应式的，缺乏显式的世界建模，而现有的世界动作模型（https://huggingface.co/papers?q=World%20Action%20Models，WAMs）在结构上与移动操作（https://huggingface.co/papers?q=mobile%20manipulation）仍未充分对齐：它们以粗略的视频块为单位工作，建模了纠缠的导航-操作动作，并且在监督下训练的逆动力学（https://huggingface.co/papers?q=inverse%20dynamics）与自回归推理条件不匹配。因此，它们常常遗漏精细的接触动力学，受到动作分布冲突的影响，并在长程展开中累积误差。我们提出 ABot-M0.5，一种全新的 WAM，其核心洞察在于：移动操作（https://huggingface.co/papers?q=mobile%20manipulation）需要在三个层面进行对齐：时间粒度（https://huggingface.co/papers?q=temporal%20granularity）、动作空间（https://huggingface.co/papers?q=action%20space）以及训练-测试一致性。为了对齐时间粒度（https://huggingface.co/papers?q=temporal%20granularity），我们引入中间潜在动作，用于捕捉局部的视觉状态转换，并作为视频潜在与具体本体控制之间的桥梁动作空间（https://huggingface.co/papers?q=action%20space）。为了对齐动作空间（https://huggingface.co/papers?q=action%20space），我们设计了一种双层混合变换器（https://huggingface.co/papers?q=Mixture-of-Transformers）架构，同时解耦模态表示和异构动作子空间（如基座移动和手臂操作）。为了对齐推理条件，我们提出了梦引导训练（https://huggingface.co/papers?q=dream-forcing）策略，该策略在模型预测的视频上逐步训练逆动力学（https://huggingface.co/papers?q=inverse%20dynamics），从而在自回归预测（https://huggingface.co/papers?q=autoregressive%20prediction）过程中改善训练-测试对齐性与鲁棒性。在具有挑战性的移动与精细操作基准上的实验表明，ABot-M0.5 在长程任务成功率和精细控制精度方面均达到了最先进水平。这些结果凸显了粒度对齐、动作解耦及推理一致的世界-动作建模的关键重要性。

查看 arXiv 页面（https://arxiv.org/abs/2607.00678）查看 PDF（https://arxiv.org/pdf/2607.00678）项目页面（https://amap-cvlab.github.io/ABot-Manipulation/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2607.00678）

在你的智能体中获取此论文：

hf papers read 2607.00678

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2607.00678 以从此页面链接。

引用该论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2607.00678 以从此页面链接。

引用该论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2607.00678 以从此页面链接。

包含该论文的收藏0

没有收藏包含此论文

添加此论文到收藏集（https://huggingface.co/new-collection）以从此页面链接。

ABot-M0.5: 统一移动与操作的世界动作模型

论文页面 - ABot-M0.5：统一移动与操作的世界动作模型

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的 Space0

包含该论文的收藏0

相似文章

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

AHA-WAM：异步视野自适应世界动作建模与观测引导上下文路由

世界行动模型：具身智能的下一个前沿

LaWAM：面向高效动力学感知机器人策略的潜在世界动作模型

Light-WAM：基于状态融合动作解码的高效世界动作模型

提交意见反馈