ABot-M0.5: 统一移动与操作的世界动作模型
摘要
ABot-M0.5 是一种针对移动操作的新型世界动作模型,通过时间粒度对齐、动作空间解耦和训练-测试一致性提升性能,在长时域和细粒度操作基准上达到了最先进水平。
查看缓存全文
缓存时间: 2026/07/02 03:46
论文页面 - ABot-M0.5:统一移动与操作的世界动作模型
来源:https://huggingface.co/papers/2607.00678 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
ABot-M0.5 是一个面向移动操作的世界动作模型,通过时间粒度对齐、动作空间解耦以及自回归预测中的训练-测试一致性,提升了性能表现。
移动操作(https://huggingface.co/papers?q=Mobile%20manipulation)是通用机器人的关键能力,但目前对具身学习方法而言仍具挑战性。VLA 策略通常是反应式的,缺乏显式的世界建模,而现有的世界动作模型(https://huggingface.co/papers?q=World%20Action%20Models,WAMs)在结构上与移动操作(https://huggingface.co/papers?q=mobile%20manipulation)仍未充分对齐:它们以粗略的视频块为单位工作,建模了纠缠的导航-操作动作,并且在监督下训练的逆动力学(https://huggingface.co/papers?q=inverse%20dynamics)与自回归推理条件不匹配。因此,它们常常遗漏精细的接触动力学,受到动作分布冲突的影响,并在长程展开中累积误差。我们提出 ABot-M0.5,一种全新的 WAM,其核心洞察在于:移动操作(https://huggingface.co/papers?q=mobile%20manipulation)需要在三个层面进行对齐:时间粒度(https://huggingface.co/papers?q=temporal%20granularity)、动作空间(https://huggingface.co/papers?q=action%20space)以及训练-测试一致性。为了对齐时间粒度(https://huggingface.co/papers?q=temporal%20granularity),我们引入中间潜在动作,用于捕捉局部的视觉状态转换,并作为视频潜在与具体本体控制之间的桥梁动作空间(https://huggingface.co/papers?q=action%20space)。为了对齐动作空间(https://huggingface.co/papers?q=action%20space),我们设计了一种双层混合变换器(https://huggingface.co/papers?q=Mixture-of-Transformers)架构,同时解耦模态表示和异构动作子空间(如基座移动和手臂操作)。为了对齐推理条件,我们提出了梦引导训练(https://huggingface.co/papers?q=dream-forcing)策略,该策略在模型预测的视频上逐步训练逆动力学(https://huggingface.co/papers?q=inverse%20dynamics),从而在自回归预测(https://huggingface.co/papers?q=autoregressive%20prediction)过程中改善训练-测试对齐性与鲁棒性。在具有挑战性的移动与精细操作基准上的实验表明,ABot-M0.5 在长程任务成功率和精细控制精度方面均达到了最先进水平。这些结果凸显了粒度对齐、动作解耦及推理一致的世界-动作建模的关键重要性。
查看 arXiv 页面(https://arxiv.org/abs/2607.00678)查看 PDF(https://arxiv.org/pdf/2607.00678)项目页面(https://amap-cvlab.github.io/ABot-Manipulation/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2607.00678)
在你的智能体中获取此论文:
hf papers read 2607.00678
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2607.00678 以从此页面链接。
引用该论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2607.00678 以从此页面链接。
引用该论文的 Space0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2607.00678 以从此页面链接。
包含该论文的收藏0
没有收藏包含此论文
添加此论文到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
τ_0-WM: 用于机器人操作的统一视频-动作世界模型
τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。
AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
LaWAM:面向高效动力学感知机器人策略的潜在世界动作模型
LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成,实现了高效的机器人控制,相比像素空间世界动作模型,成功率可达最先进水平,同时延迟降低高达24倍。
Light-WAM:基于状态融合动作解码的高效世界动作模型
Light-WAM是一种轻量级世界动作模型,用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督,在保持低推理延迟的同时实现了高性能。