何时信任想象:世界行动模型的自适应动作执行
摘要
本文介绍了 FFDC,一种用于世界行动模型的轻量级验证器,它通过检查预测观察与实际观察之间的一致性,实现了自适应动作块大小,从而提高了机器人操作的效率和鲁棒性。
查看缓存全文
缓存时间: 2026/05/08 06:58
Paper page - 何时信任想象力:世界动作模型的可自适应动作执行
Source: https://huggingface.co/papers/2605.06222 Published on May 7
·
Submitted byhttps://huggingface.co/linjhong
Lin (https://huggingface.co/linjhong)on May 8
Abstract
WorldActionModels(WAMs) 最近作为一种有前景的机器人操控范式而兴起,通过联合预测未来的视觉观测和未来动作。然而,当前的 WAMs 通常在每次模型推理后执行固定数量的预测动作,使得机器人无法判断所想象的未来是否与实际物理执行过程保持一致。在本工作中,我们将自适应 WAM 执行公式化为一个未来-现实验证问题:当 WAM 预测的未来保持可靠时,机器人应执行更长的动作序列;当现实偏离想象时,应更早重新规划。为此,我们提出了 Future Forward Dynamics Causal Attention (FFDC),这是一种轻量级验证器,通过对预测的未来动作、预测的视觉动力学、真实观测以及语言指令进行联合推理,以估计剩余的动作执行过程是否仍可信赖。FFDC 使得动作块大小能够根据预测与观测的一致性自适应调整,这在保持长视界执行效率的同时,恢复了在富含接触或困难阶段中的响应能力。我们还引入了 Mixture-of-Horizon Training 来改善长视界轨迹覆盖范围以支持自适应执行。在 RoboTwin 基准和现实世界中的实验表明,我们的方法实现了稳健性与效率之间的强大权衡:在 RoboTwin 上,它将 WAM 前向传递减少了 69.10%,执行时间减少了 34.02%,同时相比短块基线成功率提高了 2.54%;在现实世界实验中,成功率提高了 35%。
View arXiv page (https://arxiv.org/abs/2605.06222)View PDF (https://arxiv.org/pdf/2605.06222)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2605.06222)
Get this paper in your agent:
hf papers read 2605\.06222
Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
Models citing this paper0
No model linking this paper
Cite arxiv.org/abs/2605.06222 in a model README.md to link it from this page.
Datasets citing this paper0
No dataset linking this paper
Cite arxiv.org/abs/2605.06222 in a dataset README.md to link it from this page.
Spaces citing this paper0
No Space linking this paper
Cite arxiv.org/abs/2605.06222 in a Space README.md to link it from this page.
Collections including this paper0
No Collection including this paper
Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.
相似文章
Light-WAM:基于状态融合动作解码的高效世界动作模型
Light-WAM是一种轻量级世界动作模型,用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督,在保持低推理延迟的同时实现了高性能。
AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
ActWorld:从可探索到可交互的世界模型——基于动作感知记忆
ActWorld提出了一种分块自回归世界模型,具有层次化动作感知记忆,支持物体交互与导航,解决了现有交互世界模型中的数据和记忆瓶颈问题。
Foresight: 长时域机器人操作中基于动作条件的世界模型潜在表示的故障检测
Foresight 是一个用于长时域机器人操作的故障检测框架,它利用基于动作条件的世界模型潜在表示和功能性保形预测来监控轨迹,仅使用最终任务标签进行训练。在仿真和真实机器人任务中均展示了最先进的性能。