标签
WorldOlympiad 提出了一个全面的基准测试,用于评估基于视频的世界模型在物理真实性、几何一致性和交互保真度方面的表现,揭示了当前生成模型的显著差距。
CityRAG 提出一种视频生成模型,利用地理注册数据生成长时、物理一致、3D 连贯的真实城市视频,为机器人与自动驾驶提供可导航、可仿真的逼真环境。