标签
LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成,实现了高效的机器人控制,相比像素空间世界动作模型,成功率可达最先进水平,同时延迟降低高达24倍。
本文认为,大型语言模型在因果推理和长时域规划方面存在困难,其原因在于序列预测与对潜在环境动态的推理之间存在目标层面的不匹配,并引入了潜在动态推断视角以及Flux环境来研究这些局限性。
GPLD为DreamerV3引入了梯度惩罚潜在动力学正则化器,强制转换学习中的局部平滑性,提高了连续控制任务(尤其是复杂运动)的样本效率。
EMMA是一种基于物理信息的多模态框架,利用液体时间常数网络和物理约束损失,从原始视频、音频和图像数据中恢复动力学参数,在多种基准测试中显著优于现有基线方法。
介绍NormWear-2,一种将多变量生理信号和临床干预编码到共享潜空间的世界模型,利用混沌理论平衡改进长期预测,涵盖日常生活、即时护理和临床环境。