LaWAM:面向高效动力学感知机器人策略的潜在世界动作模型

Hugging Face Daily Papers 论文

摘要

LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成,实现了高效的机器人控制,相比像素空间世界动作模型,成功率可达最先进水平,同时延迟降低高达24倍。

视觉-语言-动作模型(VLAs)利用大规模视觉-语言预训练实现语义机器人控制,但通常缺乏对机器人动作如何改变场景的明确预见。世界动作模型(WAMs)通过将策略建立在预测的未来之上来弥补这一局限,然而现有方法通常依赖于计算成本高昂的视频生成,且存在大量像素级冗余。我们提出LaWAM,一种潜在世界动作模型,它通过紧凑的潜在视觉子目标而非重建的未来视频,将预测动力学暴露给机器人策略。LaWAM的核心是一个潜在动作条件潜在世界模型(LaWM)。我们通过在预训练视觉基础模型的潜在空间中训练一个潜在动作模型,并重新利用其前向解码器来预测未来观测特征以实现场景演化,从而获得LaWM。然后,LaWAM将这些预测的潜在视觉子目标作为条件来指导动作生成,以实现具有动力学感知的机器人控制。LaWAM在LIBERO(98.6%成功率)、RoboTwin(91.22%成功率)以及真实世界操作任务中取得了最先进或具有竞争力的成功率(SR),同时保持了低延迟推理。LaWAM每次动作块预测耗时187毫秒,相比像素空间WAMs,实际时钟延迟降低高达24倍。
查看原文
查看缓存全文

缓存时间: 2026/06/16 15:32

论文页面 - LaWAM:用于高效动态感知机器人策略的潜在世界动作模型

来源:https://huggingface.co/papers/2606.15768 作者:Rulin Shao, Jingyu Chen, Lunjun Zhang, Zilin Si, Jianxiong Li, Yongyuan Liang, Yanjie Ze, Yutian Tang, Ankit Rawal, Chenhui Zhang, Hengyuan Zhao, Chen Wang

摘要

LaWAM通过预测紧凑的潜在视觉子目标而非高开销的视频生成,实现了高效的机器人控制,在降低计算延迟的同时达到了高性能。

Vision-Language-Action models (https://huggingface.co/papers?q=Vision-Language-Action%20models) (VLAs) 利用大规模视觉-语言预训练实现语义层面的机器人控制,但通常缺乏对机器人动作如何改变场景的明确前瞻能力。World-Action Models (https://huggingface.co/papers?q=World-Action%20models) (WAMs) 通过使策略基于预测的未来状态来解决这一限制,然而现有方法通常依赖计算密集的视频生成,存在大量像素级冗余。我们提出LaWAM,一种潜在世界动作模型,它通过紧凑的潜在视觉子目标 (https://huggingface.co/papers?q=latent%20visual%20subgoals) 而非重建的未来视频,将预测动态 (https://huggingface.co/papers?q=predictive%20dynamics) 暴露给机器人策略 (https://huggingface.co/papers?q=robot%20policies)。LaWAM的核心是一个基于潜在动作的条件化潜在世界模型 (LaWM)。我们通过在预训练视觉基础模型 (https://huggingface.co/papers?q=vision%20foundation%20model) 的潜在空间中训练潜在动作模型 (https://huggingface.co/papers?q=latent%20action%20model),并重新利用其前向解码器 (https://huggingface.co/papers?q=forward%20decoder) 来预测场景演化 (https://huggingface.co/papers?q=scene%20evolution) 的未来观测特征,从而获得LaWM。LaWM随后将动作生成条件建立在预测的潜在视觉子目标 (https://huggingface.co/papers?q=latent%20visual%20subgoals) 之上,以实现动态感知的机器人控制。LaWAM在LIBERO (98.6% SR)、RoboTwin (91.22% SR) 以及真实世界操作任务上达到了最先进或具有竞争力的成功率 (SR),同时保持了低延迟推理。LaWAM每次动作块预测 (https://huggingface.co/papers?q=action-chunk%20prediction) 的运行时间为187毫秒,相比像素空间WAMs实现了高达24倍的时钟延迟降低。

查看 arXiv 页面 (https://arxiv.org/abs/2606.15768) 查看 PDF (https://arxiv.org/pdf/2606.15768) 项目页面 (https://rlinf.github.io/LaWAM/) GitHub14 (https://github.com/RLinf/LaWAM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.15768)

在你的 agent 中获取此论文:

hf papers read 2606\.15768

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.15768 以将此页面与模型关联。

引用此论文的数据集0

没有数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.15768 以将此页面与数据集关联。

引用此论文的 Spaces0

没有 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.15768 以将此页面与 Space 关联。

包含此论文的收藏集1

相似文章

通过残差潜在动作学习基于视觉特征的世界模型

Hugging Face Daily Papers

本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。

AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers

AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。

世界-动作交互模型的DAWN

Hugging Face Daily Papers

本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。