NVIDIA OmniDreams:用于闭环自动驾驶仿真的实时生成式世界模型

Hugging Face Daily Papers 论文

摘要

NVIDIA推出OmniDreams,这是一个基于Cosmos扩散模型构建的生成式世界模型,用于实时动作条件视频生成,能够在复杂的未见场景中实现自动驾驶策略评估的闭环仿真。

随着自动驾驶能力的提升,在长尾场景中安全评估驾驶策略仍然是一个关键瓶颈。在闭环仿真中,驾驶策略模型与环境主动交互,其动作动态更新仿真器状态并直接影响下一组生成的传感器观测数据。尽管近期基于重建的神经仿真器提供了照片级真实感,但它们从根本上受限于初始捕获的数据,难以泛化到高度动态或新颖的场景。为了克服这些限制,我们推出了OmniDreams,这是一个基于Cosmos扩散模型进行中期和后训练的奠基性生成式世界模型,能够自回归地实时生成动作条件视频。通过利用Cosmos丰富的视觉先验以及在21,000小时驾驶场景上的中期和后训练,OmniDreams能够合成传统仿真器难以捕获的复杂未观察现象,例如极端天气和不可预测的动态智能体行为。关键的是,它基于过去的帧、当前仿真器状态和即时驾驶动作自回归地条件化其照片级真实的传感器生成。在闭环系统中与Alpamayo 1策略模型和AlpaSim编排器部署后,OmniDreams充当高度响应和反应性的环境,为训练和评估下一代自动驾驶策略提供了可扩展的综合解决方案。我们另外展示了初步结果,表明从OmniDreams后训练得到的世界-动作模型(WAM)在Physical AI Autonomous Vehicles NuRec数据集上取得了强劲性能,超越了基于VLA的Alpamayo 1.5研究策略模型,同时仅使用了其总参数的五分之一。这些结果突显了像OmniDreams这样的实时世界模型也有潜力作为策略架构的骨干网络。
查看原文
查看缓存全文

缓存时间: 2026/06/03 03:35

论文页面 - NVIDIA OmniDreams:面向闭环自动驾驶仿真的实时生成世界模型

来源:https://huggingface.co/papers/2606.03159 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

OmniDreams 是一个基于 Cosmos 扩散模型训练的基础生成世界模型,能够实时生成动作条件视频,用于在复杂、未见场景中评估自动驾驶策略。

随着自动驾驶能力的提升,在长尾场景中安全评估驾驶策略仍是一个关键瓶颈。在闭环仿真中,策略模型与环境主动交互,其动作动态更新仿真器状态,并直接影响下一组生成的传感器观测。虽然近年来基于重建的神经仿真器能提供照片级真实感,但它们本质上受限于初始捕获数据,难以泛化到高度动态或全新的场景。为克服这些局限,我们提出了 OmniDreams——一个从 Cosmos 扩散模型经过中期和后训练得到的生成世界模型,能够实时自回归生成动作条件视频。通过利用 Cosmos 丰富的视觉先验,并在 2.1 万小时驾驶场景上进行中期和后训练,OmniDreams 能够合成传统仿真器难以捕获的复杂、未观测现象,例如极端天气和不可预测的动态智能体行为。关键在于,它以自回归方式,根据过去帧、当前仿真器状态以及即时驾驶动作来生成照片级真实感的传感器数据。在与 Alpamayo 1 策略模型和 AlpaSim 编排器集成的闭环系统中,OmniDreams 充当了一个高度响应、适应性的环境,为训练和评估下一代自动驾驶策略提供了可扩展且全面的解决方案。此外,我们初步结果表明,从 OmniDreams 后训练的世界-动作模型(WAM)在 Physical AI 自动驾驶车辆 NuRec 数据集上表现出色,超越了基于 VLA 的 Alpamayo 1.5 研究版策略模型,而参数量仅为后者的五分之一。这些结果凸显了像 OmniDreams 这样的实时世界模型也有潜力成为策略架构的骨干。

查看 arXiv 页面 查看 PDF 添加到收藏

引用该论文的模型 0

暂无模型链接此论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.03159,以便从此页面链接。

引用该论文的数据集 0

暂无数据集链接此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.03159,以便从此页面链接。

引用该论文的 Spaces 0

暂无 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.03159,以便从此页面链接。

包含该论文的收藏集 0

暂无收藏集包含此论文

将这篇论文添加到收藏集中,以便从此页面链接。

相似文章

nvidia/Cosmos3-Nano

Hugging Face Models Trending

NVIDIA 发布 Cosmos3-Nano,一个用于物理 AI 的全能世界模型,能够从文本、图像、视频和动作输入生成视频、图像、音频和动作指令,面向机器人、自动驾驶和智能空间应用。

Nvidia Cosmos 3

Hacker News Top

NVIDIA 开源了 Cosmos 3,这是一个物理AI的前沿基础模型,将推理、世界生成和动作生成统一在单一的 Mixture-of-Transformers 架构中,并发布了用于机器人、自动驾驶和仓库监控的模型检查点、数据集和训练脚本。

nvidia/Cosmos3-Super

Hugging Face Models Trending

NVIDIA 发布了 Cosmos3,这是一套用于物理AI的全模态世界基础模型,能够从多种输入生成视频、图像、音频和动作指令,并提供针对不同任务(如策略学习和图像到视频生成)的版本。