AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由
摘要
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。
查看缓存全文
缓存时间: 2026/06/09 08:41
论文页 - AHA-WAM:基于观测引导的上下文路由的异步自适应时域世界-动作建模
来源:https://huggingface.co/papers/2606.09811 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
AHA-WAM 是一种异步世界-动作模型,采用双扩散Transformer架构,能够高效地进行长时域规划并在机器人操作任务中实现实时动作执行。
世界-动作模型(https://huggingface.co/papers?q=World-action%20models)已成为机器人操作领域的一个有前景的范式,它联合建模视觉场景动态和动作,将物理先验注入策略学习。然而,现有世界-动作模型(https://huggingface.co/papers?q=world-action%20models)将世界预测和动作执行耦合在相同的时间分辨率下,迫使世界分支对冗余且信息量少的近期帧变化进行建模。我们推测,严格将世界预测和动作执行绑定在相同的时间节奏上可能未能充分发挥视频分支在具身控制中的潜力。为此,我们提出 AHA-WAM,一种基于双扩散Transformer(https://huggingface.co/papers?q=dual%20Diffusion%20Transformer)(DiT)架构的异步自适应时域世界-动作模型,该架构围绕这种时间不对称性重新组织世界-动作建模。AHA-WAM 将视频DiT(https://huggingface.co/papers?q=video%20DiT)实例化为一个低频世界规划器(https://huggingface.co/papers?q=world%20planner),它保持过去观测的滚动键值记忆,并暴露可复用的逐层潜上下文,编码长时域场景演化;同时一个高频动作DiT(https://huggingface.co/papers?q=action%20DiT)通过逐层联合注意力(https://huggingface.co/papers?q=layerwise%20joint%20attention)查询该上下文,以闭环方式执行短动作块。为了支持异步执行,我们引入了自适应时域偏移训练(https://huggingface.co/papers?q=horizon-adaptive%20offset%20training)和观测引导的视频上下文路由(https://huggingface.co/papers?q=Observation-Guided%20Video-Context%20Routing)(OVCR),这两者共同让动作专家能够利用长时域世界上下文,同时保持对实时执行状态的响应能力,无需重新运行视频DiT(https://huggingface.co/papers?q=video%20DiT)。在 RoboTwin 和真实世界操作任务上的实验表明,AHA-WAM 在没有机器人数据预训练的情况下达到了最先进的性能,在 RoboTwin 上平均成功率为 92.80%,在 4 个真实世界任务上成功率为 78.3%,同时实现了 24.17 Hz 的闭环控制(https://huggingface.co/papers?q=closed-loop%20control),相对于 Fast-WAM 有 4.59 倍的加速。
查看 arXiv 页面 (https://arxiv.org/abs/2606.09811)查看 PDF (https://arxiv.org/pdf/2606.09811)项目页面 (https://serene-sivy.github.io/aha-wam/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09811)
在你的智能体中获取该论文:
hf papers read 2606\.09811
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.09811 以从此页面链接。
引用该论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.09811 以从此页面链接。
引用该论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.09811 以从此页面链接。
包含该论文的收藏集0
没有收藏集包含此论文
添加此论文到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
世界-动作交互模型的DAWN
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
τ_0-WM: 用于机器人操作的统一视频-动作世界模型
τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。
Discrete-WAM:面向世界-策略学习的统一离散视觉-动作令牌编辑
介绍了Discrete-WAM,一种统一的离散潜在视觉-动作世界策略,通过对齐的离散令牌和共享的离散扩散框架,在自动驾驶中实现组合因果推理和反事实推理。
World-Language-Action模型:统一世界建模、语言推理与动作合成
本文介绍了World-Language-Action(WLA)模型,这是一种具身基础模型,能够从文本、图像和机器人状态中联合预测文本子任务、子目标图像和机器人动作,在模拟和真实环境中实现了最先进的多任务与长周期学习能力。