标签
PAIWorld 通过几何感知和跨视图注意力机制增强扩散变换器世界模型,提升机器人操作任务中的多视图三维一致性,在基准测试上达到最优结果。
WorldOlympiad 提出了一个全面的基准测试,用于评估基于视频的世界模型在物理真实性、几何一致性和交互保真度方面的表现,揭示了当前生成模型的显著差距。
CityRAG 提出一种视频生成模型,利用地理注册数据生成长时、物理一致、3D 连贯的真实城市视频,为机器人与自动驾驶提供可导航、可仿真的逼真环境。