何时信任想象:世界行动模型的自适应动作执行

Hugging Face Daily Papers 论文

摘要

本文介绍了 FFDC,一种用于世界行动模型的轻量级验证器,它通过检查预测观察与实际观察之间的一致性,实现了自适应动作块大小,从而提高了机器人操作的效率和鲁棒性。

世界行动模型(WAMs)最近已成为机器人操作中一种很有前景的范式,能够联合预测未来的视觉观察结果和未来的动作。然而,当前的 WAMs 通常会在每次模型推理后执行固定数量的预测动作,这使得机器人无法判断其“想象”中的未来是否与实际的物理执行过程保持一致。在本研究中,我们将自适应 WAM 执行表述为一种“未来-现实”验证问题:当 WAM 预测的未来依然可靠时,机器人应执行更长时间的动作;当现实与想象出现偏差时,则应更早地进行重新规划。为此,我们提出了未来前向动力学因果注意力(FFDC),这是一种轻量级验证器,它能够联合推理预测的未来动作、预测的视觉动态、真实观察结果以及语言指令,以评估剩余的动作执行过程是否仍可信赖。FFDC 将自适应动作块大小作为预测-观察一致性的自然结果,在保留长周期执行效率的同时,恢复了在接触频繁或困难阶段的操作响应能力。此外,我们引入了混合视域训练(Mixture-of-Horizon Training),以改善长视域轨迹覆盖,从而支持自适应执行。在 RoboTwin 基准测试和真实世界中的实验表明,我们的方法实现了强大的鲁棒性与效率权衡:在 RoboTwin 上,它将 WAM 的前向传播次数减少了 69.10%,执行时间缩短了 34.02%,同时将成功率提高了 2.54%(相较于短块基线);在真实世界实验中,成功率提升了 35%。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:58

Paper page - 何时信任想象力:世界动作模型的可自适应动作执行

Source: https://huggingface.co/papers/2605.06222 Published on May 7

·

Submitted byhttps://huggingface.co/linjhong

Lin (https://huggingface.co/linjhong)on May 8

Abstract

WorldActionModels(WAMs) 最近作为一种有前景的机器人操控范式而兴起,通过联合预测未来的视觉观测和未来动作。然而,当前的 WAMs 通常在每次模型推理后执行固定数量的预测动作,使得机器人无法判断所想象的未来是否与实际物理执行过程保持一致。在本工作中,我们将自适应 WAM 执行公式化为一个未来-现实验证问题:当 WAM 预测的未来保持可靠时,机器人应执行更长的动作序列;当现实偏离想象时,应更早重新规划。为此,我们提出了 Future Forward Dynamics Causal Attention (FFDC),这是一种轻量级验证器,通过对预测的未来动作、预测的视觉动力学、真实观测以及语言指令进行联合推理,以估计剩余的动作执行过程是否仍可信赖。FFDC 使得动作块大小能够根据预测与观测的一致性自适应调整,这在保持长视界执行效率的同时,恢复了在富含接触或困难阶段中的响应能力。我们还引入了 Mixture-of-Horizon Training 来改善长视界轨迹覆盖范围以支持自适应执行。在 RoboTwin 基准和现实世界中的实验表明,我们的方法实现了稳健性与效率之间的强大权衡:在 RoboTwin 上,它将 WAM 前向传递减少了 69.10%,执行时间减少了 34.02%,同时相比短块基线成功率提高了 2.54%;在现实世界实验中,成功率提高了 35%。

View arXiv page (https://arxiv.org/abs/2605.06222)View PDF (https://arxiv.org/pdf/2605.06222)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2605.06222)

Get this paper in your agent:

hf papers read 2605\.06222

Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

Models citing this paper0

No model linking this paper

Cite arxiv.org/abs/2605.06222 in a model README.md to link it from this page.

Datasets citing this paper0

No dataset linking this paper

Cite arxiv.org/abs/2605.06222 in a dataset README.md to link it from this page.

Spaces citing this paper0

No Space linking this paper

Cite arxiv.org/abs/2605.06222 in a Space README.md to link it from this page.

Collections including this paper0

No Collection including this paper

Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.

相似文章

AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers

AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。