Light-WAM:基于状态融合动作解码的高效世界动作模型

Hugging Face Daily Papers 论文

摘要

Light-WAM是一种轻量级世界动作模型,用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督,在保持低推理延迟的同时实现了高性能。

世界动作模型通过将未来预测作为额外训练目标来扩展机器人策略学习,促使策略在其表征中编码与任务相关的时间结构。当前的世界动作模型通常依赖大规模生成式架构,导致高昂的训练成本和推理延迟,难以作为高效的闭环策略部署。我们提出Light-WAM,一种面向高效机器人操作的轻量级世界动作模型。具体而言,该模型基于紧凑视频骨干构建,并在降采样的潜在空间中进行未来视频监督,从而在降低视频协同训练成本的同时保留其对表征学习的益处。在动作预测方面,Light-WAM引入了StateFusionActionExpert,该模块从多个骨干层读取自适应状态,通过可学习查询池化进行融合,并在单次前向传播中直接预测动作片段。该设计为视频骨干表征与机器人动作之间提供了高效的接口,避免了使用繁重的生成式动作专家。实验表明,Light-WAM在LIBERO上保持强劲性能,并在RoboTwin 2.0上实现了可用的多任务性能,同时仅使用0.44B可训练参数。此外,其推理延迟为72.03毫秒,峰值GPU内存为4.1GiB,训练吞吐量也有所提升。
查看原文
查看缓存全文

缓存时间: 2026/06/10 00:10

论文页面 - Light-WAM:基于状态融合动作解码的高效世界动作模型

来源:https://huggingface.co/papers/2606.08242

摘要

Light-WAM 是一种轻量级世界动作模型,专为机器人操作任务设计。它采用紧凑的视频骨干网络和降采样潜在空间,以实现高效未来视频监督,并结合 StateFusionActionExpert 直接预测动作。

世界动作模型(https://huggingface.co/papers?q=World%20Action%20Models)(WAMs)通过将未来预测(https://huggingface.co/papers?q=future%20prediction)作为额外训练目标扩展了机器人策略学习(https://huggingface.co/papers?q=robot%20policy%20learning),从而促使策略在其表征中编码与任务相关的时间结构。当前的世界动作模型通常依赖于大规模生成式架构(https://huggingface.co/papers?q=generative%20architectures),这导致训练成本高且推理延迟(https://huggingface.co/papers?q=inference%20latency)大,难以部署为高效的闭环策略。我们提出 Light-WAM,一种用于高效机器人操作的轻量级世界动作模型。具体来说,它采用紧凑的视频骨干网络(https://huggingface.co/papers?q=video%20backbone),并在降采样的潜在空间(https://huggingface.co/papers?q=downsampled%20latent%20space)中进行未来视频监督,从而降低视频协同训练成本,同时保留其对表征学习的益处。在动作预测方面,Light-WAM 引入了 StateFusionActionExpert(https://huggingface.co/papers?q=StateFusionActionExpert),该模块从多个骨干网络层读取适配状态,通过可学习查询池化(https://huggingface.co/papers?q=learned-query%20pooling)进行融合,并在单次前向传播中直接预测动作片段(https://huggingface.co/papers?q=action%20chunks)。这种设计为视频骨干网络(https://huggingface.co/papers?q=video%20backbone)表征与机器人动作之间提供了高效接口,避免了对重型生成式动作专家的依赖。实验表明,Light-WAM 在 LIBERO 上保持了强劲性能,并在 RoboTwin 2.0 上实现了可用的多任务性能,同时仅使用了 0.44B 可训练参数。它还实现了 72.03ms 的推理延迟(https://huggingface.co/papers?q=inference%20latency),峰值 GPU 内存为 4.1GiB,并提升了训练吞吐量(https://huggingface.co/papers?q=training%20throughput)。

查看 arXiv 页面(https://arxiv.org/abs/2606.08242)查看 PDF(https://arxiv.org/pdf/2606.08242)GitHub25(https://github.com/L1ziang/Light-WAM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.08242)

在您的智能体中获取此论文:

hf papers read 2606.08242

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

l1ziang/lightwam-checkpoints 更新于约10小时前(https://huggingface.co/l1ziang/lightwam-checkpoints)

引用此论文的数据集1

l1ziang/lightwam-offline-cache 更新于约10小时前 • 50(https://huggingface.co/datasets/l1ziang/lightwam-offline-cache)

引用此论文的 Spaces0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2606.08242 以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

添加此论文到一个收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers

AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

Hugging Face Daily Papers

τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。

通过残差潜在动作学习基于视觉特征的世界模型

Hugging Face Daily Papers

本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。