AHA-WAM：异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers 2026/06/08 00:00 论文

摘要

AHA-WAM是一种异步世界动作模型，采用双扩散Transformer将世界预测与动作执行解耦，实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能，在RoboTwin上成功率达92.8%，在现实世界任务中达78.3%，同时实现了24.17 Hz的闭环控制。

世界动作模型已成为机器人操作的一种有前景的范式，它联合建模视觉场景动态和动作，将物理先验注入策略学习。然而，现有的世界动作模型将世界预测和动作执行耦合在相同的时间分辨率下，迫使世界分支建模近期的帧变化，而这些变化往往是冗余且信息量较弱的。我们认为，严格将世界预测和动作执行绑定在相同的时间节奏上，可能未能充分利用视频分支在具身控制中的潜力。因此，我们提出了AHA-WAM，一种基于双扩散Transformer（DiT）架构的异步视野自适应世界动作模型，围绕这种时间不对称性重新组织世界动作建模。AHA-WAM将视频DiT实例化为低频世界规划器，维护过去观察的滚动键值记忆，并暴露可重用的逐层潜在上下文，编码长视野场景演变；同时，高频动作DiT通过逐层联合注意力查询该上下文，以闭环方式执行短动作块。为了支持异步执行，我们引入了视野自适应偏移训练和观测引导视频上下文路由（OVCR），这两者共同使动作专家能够利用长视野世界上下文，同时保持对实时执行状态的响应，而无需重新运行视频DiT。在RoboTwin和现实世界操作任务上的实验表明，AHA-WAM无需任何机器人数据预训练即可达到最先进的性能，在RoboTwin上平均成功率为92.80%，在4个现实世界任务中成功率为78.3%，同时实现了24.17 Hz的闭环控制，速度比Fast-WAM提升4.59倍。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:41

论文页 - AHA-WAM：基于观测引导的上下文路由的异步自适应时域世界-动作建模

来源：https://huggingface.co/papers/2606.09811 作者：

，

摘要

AHA-WAM 是一种异步世界-动作模型，采用双扩散Transformer架构，能够高效地进行长时域规划并在机器人操作任务中实现实时动作执行。

世界-动作模型(https://huggingface.co/papers?q=World-action%20models)已成为机器人操作领域的一个有前景的范式，它联合建模视觉场景动态和动作，将物理先验注入策略学习。然而，现有世界-动作模型(https://huggingface.co/papers?q=world-action%20models)将世界预测和动作执行耦合在相同的时间分辨率下，迫使世界分支对冗余且信息量少的近期帧变化进行建模。我们推测，严格将世界预测和动作执行绑定在相同的时间节奏上可能未能充分发挥视频分支在具身控制中的潜力。为此，我们提出 AHA-WAM，一种基于双扩散Transformer(https://huggingface.co/papers?q=dual%20Diffusion%20Transformer)(DiT)架构的异步自适应时域世界-动作模型，该架构围绕这种时间不对称性重新组织世界-动作建模。AHA-WAM 将视频DiT(https://huggingface.co/papers?q=video%20DiT)实例化为一个低频世界规划器(https://huggingface.co/papers?q=world%20planner)，它保持过去观测的滚动键值记忆，并暴露可复用的逐层潜上下文，编码长时域场景演化；同时一个高频动作DiT(https://huggingface.co/papers?q=action%20DiT)通过逐层联合注意力(https://huggingface.co/papers?q=layerwise%20joint%20attention)查询该上下文，以闭环方式执行短动作块。为了支持异步执行，我们引入了自适应时域偏移训练(https://huggingface.co/papers?q=horizon-adaptive%20offset%20training)和观测引导的视频上下文路由(https://huggingface.co/papers?q=Observation-Guided%20Video-Context%20Routing)(OVCR)，这两者共同让动作专家能够利用长时域世界上下文，同时保持对实时执行状态的响应能力，无需重新运行视频DiT(https://huggingface.co/papers?q=video%20DiT)。在 RoboTwin 和真实世界操作任务上的实验表明，AHA-WAM 在没有机器人数据预训练的情况下达到了最先进的性能，在 RoboTwin 上平均成功率为 92.80%，在 4 个真实世界任务上成功率为 78.3%，同时实现了 24.17 Hz 的闭环控制(https://huggingface.co/papers?q=closed-loop%20control)，相对于 Fast-WAM 有 4.59 倍的加速。

查看 arXiv 页面 (https://arxiv.org/abs/2606.09811)查看 PDF (https://arxiv.org/pdf/2606.09811)项目页面 (https://serene-sivy.github.io/aha-wam/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09811)

在你的智能体中获取该论文：

hf papers read 2606\.09811

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.09811 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.09811 以从此页面链接。

引用该论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.09811 以从此页面链接。

包含该论文的收藏集0

没有收藏集包含此论文

添加此论文到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

AHA-WAM：异步视野自适应世界动作建模与观测引导上下文路由

论文页 - AHA-WAM：基于观测引导的上下文路由的异步自适应时域世界-动作建模

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的 Spaces0

包含该论文的收藏集0

相似文章

Light-WAM：基于状态融合动作解码的高效世界动作模型

LaWAM：面向高效动力学感知机器人策略的潜在世界动作模型

世界行动模型：具身智能的下一个前沿

世界-动作交互模型的DAWN

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

提交意见反馈