标签
本综述全面概述了世界行动模型(WAMs)——即生成未来状态以辅助决策的预测行动系统——并根据所需输出和设计选择对现有工作进行分类。
ImageWAM 提出在世界动作模型中用预训练图像编辑模型替代视频生成用于机器人控制,在将计算量降至视频方法的 1/6、延迟降至 1/4 的同时实现了更优性能。
Light-WAM是一种轻量级世界动作模型,用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督,在保持低推理延迟的同时实现了高性能。
Flash-WAM提出了一种面向世界行动模型的模态感知蒸馏方法,通过将扩散压缩为每个模态单步推理,实现了实时推理,速度提升23倍。
为机器人基础模型整理的视觉-语言-动作与世界动作模型研究 GitHub 列表。
在Sequoia AI Ascent演讲中,Jim Fan博士提出了与LLM成功相平行的实现Physical AGI路线图,介绍了视频世界模型、World Action Models (WAM) 和 Dexterity Scaling Law 等概念,并分享了对近期未来的预测。
本文介绍了 FFDC,一种用于世界行动模型的轻量级验证器,它通过检查预测观察与实际观察之间的一致性,实现了自适应动作块大小,从而提高了机器人操作的效率和鲁棒性。