标签
World Pilot 通过融入来自世界动作模型的动态场景演变和轨迹先验来增强视觉-语言-动作模型,在操作任务上实现了最先进的零样本性能。
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。
WALL-WM 通过使用语义事件作为学习单元而非固定动作块,推进了视频-动作学习,实现了更灵活和可扩展的视觉-语言-动作训练与推理。
介绍了两个机器人世界模型相关的项目:Awesome-WAM(OpenMOSS)收录了World Action Models和DreamDojo等论文;awesome-physical-ai整理了VLA模型、世界模型和具身基础模型论文合集(含NVIDIA Cosmos Predict2.5)。
英伟达机器人负责人Jim Fan公开演讲,主张机器人应直接照搬大语言模型的成功路径,提出世界动作模型(WAM)、基于人类第一人称视频的数据革命以及神经模拟等方向,并预测95%概率在2040年前实现通用实体机器人终局。