AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers 论文

摘要

AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。

世界动作模型已成为机器人操作的一种有前景的范式,它联合建模视觉场景动态和动作,将物理先验注入策略学习。然而,现有的世界动作模型将世界预测和动作执行耦合在相同的时间分辨率下,迫使世界分支建模近期的帧变化,而这些变化往往是冗余且信息量较弱的。我们认为,严格将世界预测和动作执行绑定在相同的时间节奏上,可能未能充分利用视频分支在具身控制中的潜力。因此,我们提出了AHA-WAM,一种基于双扩散Transformer(DiT)架构的异步视野自适应世界动作模型,围绕这种时间不对称性重新组织世界动作建模。AHA-WAM将视频DiT实例化为低频世界规划器,维护过去观察的滚动键值记忆,并暴露可重用的逐层潜在上下文,编码长视野场景演变;同时,高频动作DiT通过逐层联合注意力查询该上下文,以闭环方式执行短动作块。为了支持异步执行,我们引入了视野自适应偏移训练和观测引导视频上下文路由(OVCR),这两者共同使动作专家能够利用长视野世界上下文,同时保持对实时执行状态的响应,而无需重新运行视频DiT。在RoboTwin和现实世界操作任务上的实验表明,AHA-WAM无需任何机器人数据预训练即可达到最先进的性能,在RoboTwin上平均成功率为92.80%,在4个现实世界任务中成功率为78.3%,同时实现了24.17 Hz的闭环控制,速度比Fast-WAM提升4.59倍。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:41

论文页 - AHA-WAM:基于观测引导的上下文路由的异步自适应时域世界-动作建模

来源:https://huggingface.co/papers/2606.09811 作者:

摘要

AHA-WAM 是一种异步世界-动作模型,采用双扩散Transformer架构,能够高效地进行长时域规划并在机器人操作任务中实现实时动作执行。

世界-动作模型(https://huggingface.co/papers?q=World-action%20models)已成为机器人操作领域的一个有前景的范式,它联合建模视觉场景动态和动作,将物理先验注入策略学习。然而,现有世界-动作模型(https://huggingface.co/papers?q=world-action%20models)将世界预测和动作执行耦合在相同的时间分辨率下,迫使世界分支对冗余且信息量少的近期帧变化进行建模。我们推测,严格将世界预测和动作执行绑定在相同的时间节奏上可能未能充分发挥视频分支在具身控制中的潜力。为此,我们提出 AHA-WAM,一种基于双扩散Transformer(https://huggingface.co/papers?q=dual%20Diffusion%20Transformer)(DiT)架构的异步自适应时域世界-动作模型,该架构围绕这种时间不对称性重新组织世界-动作建模。AHA-WAM 将视频DiT(https://huggingface.co/papers?q=video%20DiT)实例化为一个低频世界规划器(https://huggingface.co/papers?q=world%20planner),它保持过去观测的滚动键值记忆,并暴露可复用的逐层潜上下文,编码长时域场景演化;同时一个高频动作DiT(https://huggingface.co/papers?q=action%20DiT)通过逐层联合注意力(https://huggingface.co/papers?q=layerwise%20joint%20attention)查询该上下文,以闭环方式执行短动作块。为了支持异步执行,我们引入了自适应时域偏移训练(https://huggingface.co/papers?q=horizon-adaptive%20offset%20training)和观测引导的视频上下文路由(https://huggingface.co/papers?q=Observation-Guided%20Video-Context%20Routing)(OVCR),这两者共同让动作专家能够利用长时域世界上下文,同时保持对实时执行状态的响应能力,无需重新运行视频DiT(https://huggingface.co/papers?q=video%20DiT)。在 RoboTwin 和真实世界操作任务上的实验表明,AHA-WAM 在没有机器人数据预训练的情况下达到了最先进的性能,在 RoboTwin 上平均成功率为 92.80%,在 4 个真实世界任务上成功率为 78.3%,同时实现了 24.17 Hz 的闭环控制(https://huggingface.co/papers?q=closed-loop%20control),相对于 Fast-WAM 有 4.59 倍的加速。

查看 arXiv 页面 (https://arxiv.org/abs/2606.09811)查看 PDF (https://arxiv.org/pdf/2606.09811)项目页面 (https://serene-sivy.github.io/aha-wam/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09811)

在你的智能体中获取该论文:

hf papers read 2606\.09811

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.09811 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.09811 以从此页面链接。

引用该论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.09811 以从此页面链接。

包含该论文的收藏集0

没有收藏集包含此论文

添加此论文到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。

世界-动作交互模型的DAWN

Hugging Face Daily Papers

本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

Hugging Face Daily Papers

τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。