LaWAM:面向高效动力学感知机器人策略的潜在世界动作模型
摘要
LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成,实现了高效的机器人控制,相比像素空间世界动作模型,成功率可达最先进水平,同时延迟降低高达24倍。
查看缓存全文
缓存时间: 2026/06/16 15:32
论文页面 - LaWAM:用于高效动态感知机器人策略的潜在世界动作模型
来源:https://huggingface.co/papers/2606.15768 作者:Rulin Shao, Jingyu Chen, Lunjun Zhang, Zilin Si, Jianxiong Li, Yongyuan Liang, Yanjie Ze, Yutian Tang, Ankit Rawal, Chenhui Zhang, Hengyuan Zhao, Chen Wang
摘要
LaWAM通过预测紧凑的潜在视觉子目标而非高开销的视频生成,实现了高效的机器人控制,在降低计算延迟的同时达到了高性能。
Vision-Language-Action models (https://huggingface.co/papers?q=Vision-Language-Action%20models) (VLAs) 利用大规模视觉-语言预训练实现语义层面的机器人控制,但通常缺乏对机器人动作如何改变场景的明确前瞻能力。World-Action Models (https://huggingface.co/papers?q=World-Action%20models) (WAMs) 通过使策略基于预测的未来状态来解决这一限制,然而现有方法通常依赖计算密集的视频生成,存在大量像素级冗余。我们提出LaWAM,一种潜在世界动作模型,它通过紧凑的潜在视觉子目标 (https://huggingface.co/papers?q=latent%20visual%20subgoals) 而非重建的未来视频,将预测动态 (https://huggingface.co/papers?q=predictive%20dynamics) 暴露给机器人策略 (https://huggingface.co/papers?q=robot%20policies)。LaWAM的核心是一个基于潜在动作的条件化潜在世界模型 (LaWM)。我们通过在预训练视觉基础模型 (https://huggingface.co/papers?q=vision%20foundation%20model) 的潜在空间中训练潜在动作模型 (https://huggingface.co/papers?q=latent%20action%20model),并重新利用其前向解码器 (https://huggingface.co/papers?q=forward%20decoder) 来预测场景演化 (https://huggingface.co/papers?q=scene%20evolution) 的未来观测特征,从而获得LaWM。LaWM随后将动作生成条件建立在预测的潜在视觉子目标 (https://huggingface.co/papers?q=latent%20visual%20subgoals) 之上,以实现动态感知的机器人控制。LaWAM在LIBERO (98.6% SR)、RoboTwin (91.22% SR) 以及真实世界操作任务上达到了最先进或具有竞争力的成功率 (SR),同时保持了低延迟推理。LaWAM每次动作块预测 (https://huggingface.co/papers?q=action-chunk%20prediction) 的运行时间为187毫秒,相比像素空间WAMs实现了高达24倍的时钟延迟降低。
查看 arXiv 页面 (https://arxiv.org/abs/2606.15768) 查看 PDF (https://arxiv.org/pdf/2606.15768) 项目页面 (https://rlinf.github.io/LaWAM/) GitHub14 (https://github.com/RLinf/LaWAM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.15768)
在你的 agent 中获取此论文:
hf papers read 2606\.15768
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.15768 以将此页面与模型关联。
引用此论文的数据集0
没有数据集关联此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.15768 以将此页面与数据集关联。
引用此论文的 Spaces0
没有 Space 关联此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.15768 以将此页面与 Space 关联。
包含此论文的收藏集1
相似文章
Light-WAM:基于状态融合动作解码的高效世界动作模型
Light-WAM是一种轻量级世界动作模型,用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督,在保持低推理延迟的同时实现了高性能。
通过残差潜在动作学习基于视觉特征的世界模型
本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。
AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。
世界-动作交互模型的DAWN
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
World-Language-Action模型:统一世界建模、语言推理与动作合成
本文介绍了World-Language-Action(WLA)模型,这是一种具身基础模型,能够从文本、图像和机器人状态中联合预测文本子任务、子目标图像和机器人动作,在模拟和真实环境中实现了最先进的多任务与长周期学习能力。