Light-WAM:基于状态融合动作解码的高效世界动作模型
摘要
Light-WAM是一种轻量级世界动作模型,用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督,在保持低推理延迟的同时实现了高性能。
查看缓存全文
缓存时间: 2026/06/10 00:10
论文页面 - Light-WAM:基于状态融合动作解码的高效世界动作模型
来源:https://huggingface.co/papers/2606.08242
摘要
Light-WAM 是一种轻量级世界动作模型,专为机器人操作任务设计。它采用紧凑的视频骨干网络和降采样潜在空间,以实现高效未来视频监督,并结合 StateFusionActionExpert 直接预测动作。
世界动作模型(https://huggingface.co/papers?q=World%20Action%20Models)(WAMs)通过将未来预测(https://huggingface.co/papers?q=future%20prediction)作为额外训练目标扩展了机器人策略学习(https://huggingface.co/papers?q=robot%20policy%20learning),从而促使策略在其表征中编码与任务相关的时间结构。当前的世界动作模型通常依赖于大规模生成式架构(https://huggingface.co/papers?q=generative%20architectures),这导致训练成本高且推理延迟(https://huggingface.co/papers?q=inference%20latency)大,难以部署为高效的闭环策略。我们提出 Light-WAM,一种用于高效机器人操作的轻量级世界动作模型。具体来说,它采用紧凑的视频骨干网络(https://huggingface.co/papers?q=video%20backbone),并在降采样的潜在空间(https://huggingface.co/papers?q=downsampled%20latent%20space)中进行未来视频监督,从而降低视频协同训练成本,同时保留其对表征学习的益处。在动作预测方面,Light-WAM 引入了 StateFusionActionExpert(https://huggingface.co/papers?q=StateFusionActionExpert),该模块从多个骨干网络层读取适配状态,通过可学习查询池化(https://huggingface.co/papers?q=learned-query%20pooling)进行融合,并在单次前向传播中直接预测动作片段(https://huggingface.co/papers?q=action%20chunks)。这种设计为视频骨干网络(https://huggingface.co/papers?q=video%20backbone)表征与机器人动作之间提供了高效接口,避免了对重型生成式动作专家的依赖。实验表明,Light-WAM 在 LIBERO 上保持了强劲性能,并在 RoboTwin 2.0 上实现了可用的多任务性能,同时仅使用了 0.44B 可训练参数。它还实现了 72.03ms 的推理延迟(https://huggingface.co/papers?q=inference%20latency),峰值 GPU 内存为 4.1GiB,并提升了训练吞吐量(https://huggingface.co/papers?q=training%20throughput)。
查看 arXiv 页面(https://arxiv.org/abs/2606.08242)查看 PDF(https://arxiv.org/pdf/2606.08242)GitHub25(https://github.com/L1ziang/Light-WAM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.08242)
在您的智能体中获取此论文:
hf papers read 2606.08242
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型1
l1ziang/lightwam-checkpoints 更新于约10小时前(https://huggingface.co/l1ziang/lightwam-checkpoints)
引用此论文的数据集1
l1ziang/lightwam-offline-cache 更新于约10小时前 • 50(https://huggingface.co/datasets/l1ziang/lightwam-offline-cache)
引用此论文的 Spaces0
没有链接此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2606.08242 以从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
添加此论文到一个收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
Flash-WAM: 面向世界行动模型的模态感知蒸馏
Flash-WAM提出了一种面向世界行动模型的模态感知蒸馏方法,通过将扩散压缩为每个模态单步推理,实现了实时推理,速度提升23倍。
AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。
τ_0-WM: 用于机器人操作的统一视频-动作世界模型
τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
通过残差潜在动作学习基于视觉特征的世界模型
本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。