Light-WAM：基于状态融合动作解码的高效世界动作模型

Hugging Face Daily Papers 2026/06/06 00:00 论文

摘要

Light-WAM是一种轻量级世界动作模型，用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督，在保持低推理延迟的同时实现了高性能。

世界动作模型通过将未来预测作为额外训练目标来扩展机器人策略学习，促使策略在其表征中编码与任务相关的时间结构。当前的世界动作模型通常依赖大规模生成式架构，导致高昂的训练成本和推理延迟，难以作为高效的闭环策略部署。我们提出Light-WAM，一种面向高效机器人操作的轻量级世界动作模型。具体而言，该模型基于紧凑视频骨干构建，并在降采样的潜在空间中进行未来视频监督，从而在降低视频协同训练成本的同时保留其对表征学习的益处。在动作预测方面，Light-WAM引入了StateFusionActionExpert，该模块从多个骨干层读取自适应状态，通过可学习查询池化进行融合，并在单次前向传播中直接预测动作片段。该设计为视频骨干表征与机器人动作之间提供了高效的接口，避免了使用繁重的生成式动作专家。实验表明，Light-WAM在LIBERO上保持强劲性能，并在RoboTwin 2.0上实现了可用的多任务性能，同时仅使用0.44B可训练参数。此外，其推理延迟为72.03毫秒，峰值GPU内存为4.1GiB，训练吞吐量也有所提升。

查看原文

查看缓存全文

缓存时间: 2026/06/10 00:10

论文页面 - Light-WAM：基于状态融合动作解码的高效世界动作模型

来源：https://huggingface.co/papers/2606.08242

摘要

Light-WAM 是一种轻量级世界动作模型，专为机器人操作任务设计。它采用紧凑的视频骨干网络和降采样潜在空间，以实现高效未来视频监督，并结合 StateFusionActionExpert 直接预测动作。

世界动作模型（https://huggingface.co/papers?q=World%20Action%20Models）（WAMs）通过将未来预测（https://huggingface.co/papers?q=future%20prediction）作为额外训练目标扩展了机器人策略学习（https://huggingface.co/papers?q=robot%20policy%20learning），从而促使策略在其表征中编码与任务相关的时间结构。当前的世界动作模型通常依赖于大规模生成式架构（https://huggingface.co/papers?q=generative%20architectures），这导致训练成本高且推理延迟（https://huggingface.co/papers?q=inference%20latency）大，难以部署为高效的闭环策略。我们提出 Light-WAM，一种用于高效机器人操作的轻量级世界动作模型。具体来说，它采用紧凑的视频骨干网络（https://huggingface.co/papers?q=video%20backbone），并在降采样的潜在空间（https://huggingface.co/papers?q=downsampled%20latent%20space）中进行未来视频监督，从而降低视频协同训练成本，同时保留其对表征学习的益处。在动作预测方面，Light-WAM 引入了 StateFusionActionExpert（https://huggingface.co/papers?q=StateFusionActionExpert），该模块从多个骨干网络层读取适配状态，通过可学习查询池化（https://huggingface.co/papers?q=learned-query%20pooling）进行融合，并在单次前向传播中直接预测动作片段（https://huggingface.co/papers?q=action%20chunks）。这种设计为视频骨干网络（https://huggingface.co/papers?q=video%20backbone）表征与机器人动作之间提供了高效接口，避免了对重型生成式动作专家的依赖。实验表明，Light-WAM 在 LIBERO 上保持了强劲性能，并在 RoboTwin 2.0 上实现了可用的多任务性能，同时仅使用了 0.44B 可训练参数。它还实现了 72.03ms 的推理延迟（https://huggingface.co/papers?q=inference%20latency），峰值 GPU 内存为 4.1GiB，并提升了训练吞吐量（https://huggingface.co/papers?q=training%20throughput）。

查看 arXiv 页面（https://arxiv.org/abs/2606.08242）查看 PDF（https://arxiv.org/pdf/2606.08242）GitHub25（https://github.com/L1ziang/Light-WAM）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.08242）

在您的智能体中获取此论文：

hf papers read 2606.08242

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

l1ziang/lightwam-checkpoints 更新于约10小时前（https://huggingface.co/l1ziang/lightwam-checkpoints）

引用此论文的数据集1

l1ziang/lightwam-offline-cache 更新于约10小时前 • 50（https://huggingface.co/datasets/l1ziang/lightwam-offline-cache）

引用此论文的 Spaces0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2606.08242 以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

添加此论文到一个收藏集（https://huggingface.co/new-collection）以从此页面链接。

Light-WAM：基于状态融合动作解码的高效世界动作模型

论文页面 - Light-WAM：基于状态融合动作解码的高效世界动作模型

摘要

引用此论文的模型1

l1ziang/lightwam-checkpoints 更新于约10小时前（https://huggingface.co/l1ziang/lightwam-checkpoints）

引用此论文的数据集1

l1ziang/lightwam-offline-cache 更新于约10小时前 • 50（https://huggingface.co/datasets/l1ziang/lightwam-offline-cache）

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

Flash-WAM: 面向世界行动模型的模态感知蒸馏

AHA-WAM：异步视野自适应世界动作建模与观测引导上下文路由

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

世界行动模型：具身智能的下一个前沿

通过残差潜在动作学习基于视觉特征的世界模型

提交意见反馈