NVIDIA OmniDreams:用于闭环自动驾驶仿真的实时生成式世界模型
摘要
NVIDIA推出OmniDreams,这是一个基于Cosmos扩散模型构建的生成式世界模型,用于实时动作条件视频生成,能够在复杂的未见场景中实现自动驾驶策略评估的闭环仿真。
查看缓存全文
缓存时间: 2026/06/03 03:35
论文页面 - NVIDIA OmniDreams:面向闭环自动驾驶仿真的实时生成世界模型
来源:https://huggingface.co/papers/2606.03159 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
OmniDreams 是一个基于 Cosmos 扩散模型训练的基础生成世界模型,能够实时生成动作条件视频,用于在复杂、未见场景中评估自动驾驶策略。
随着自动驾驶能力的提升,在长尾场景中安全评估驾驶策略仍是一个关键瓶颈。在闭环仿真中,策略模型与环境主动交互,其动作动态更新仿真器状态,并直接影响下一组生成的传感器观测。虽然近年来基于重建的神经仿真器能提供照片级真实感,但它们本质上受限于初始捕获数据,难以泛化到高度动态或全新的场景。为克服这些局限,我们提出了 OmniDreams——一个从 Cosmos 扩散模型经过中期和后训练得到的生成世界模型,能够实时自回归生成动作条件视频。通过利用 Cosmos 丰富的视觉先验,并在 2.1 万小时驾驶场景上进行中期和后训练,OmniDreams 能够合成传统仿真器难以捕获的复杂、未观测现象,例如极端天气和不可预测的动态智能体行为。关键在于,它以自回归方式,根据过去帧、当前仿真器状态以及即时驾驶动作来生成照片级真实感的传感器数据。在与 Alpamayo 1 策略模型和 AlpaSim 编排器集成的闭环系统中,OmniDreams 充当了一个高度响应、适应性的环境,为训练和评估下一代自动驾驶策略提供了可扩展且全面的解决方案。此外,我们初步结果表明,从 OmniDreams 后训练的世界-动作模型(WAM)在 Physical AI 自动驾驶车辆 NuRec 数据集上表现出色,超越了基于 VLA 的 Alpamayo 1.5 研究版策略模型,而参数量仅为后者的五分之一。这些结果凸显了像 OmniDreams 这样的实时世界模型也有潜力成为策略架构的骨干。
引用该论文的模型 0
暂无模型链接此论文
请在模型的 README.md 中引用 arxiv.org/abs/2606.03159,以便从此页面链接。
引用该论文的数据集 0
暂无数据集链接此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.03159,以便从此页面链接。
引用该论文的 Spaces 0
暂无 Space 链接此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.03159,以便从此页面链接。
包含该论文的收藏集 0
暂无收藏集包含此论文
将这篇论文添加到收藏集中,以便从此页面链接。
相似文章
欢迎 NVIDIA Cosmos 3:首个用于物理AI推理与行为的开放全能模型
NVIDIA Cosmos 3 是一个面向物理AI的开放全能模型,它将世界生成、推理和行为生成统一到一个模型中,现已可在 Hugging Face 上获取,并提供多种资源。
nvidia/Cosmos3-Nano
NVIDIA 发布 Cosmos3-Nano,一个用于物理 AI 的全能世界模型,能够从文本、图像、视频和动作输入生成视频、图像、音频和动作指令,面向机器人、自动驾驶和智能空间应用。
Decart的新世界模型可以模拟数小时的逼真驾驶——但有一些注意事项
Decart发布了Oasis 3,一个交互式世界模型,能够实时生成逼真的驾驶环境,并通过API提供。该模型针对自动驾驶仿真及其他物理AI应用,利用Decart的优化堆栈实现成本效益。
Nvidia Cosmos 3
NVIDIA 开源了 Cosmos 3,这是一个物理AI的前沿基础模型,将推理、世界生成和动作生成统一在单一的 Mixture-of-Transformers 架构中,并发布了用于机器人、自动驾驶和仓库监控的模型检查点、数据集和训练脚本。
nvidia/Cosmos3-Super
NVIDIA 发布了 Cosmos3,这是一套用于物理AI的全模态世界基础模型,能够从多种输入生成视频、图像、音频和动作指令,并提供针对不同任务(如策略学习和图像到视频生成)的版本。