Nvidia Cosmos 3

Hacker News Top 模型

摘要

NVIDIA 开源了 Cosmos 3,这是一个物理AI的前沿基础模型,将推理、世界生成和动作生成统一在单一的 Mixture-of-Transformers 架构中,并发布了用于机器人、自动驾驶和仓库监控的模型检查点、数据集和训练脚本。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/01 13:43

# 用 NVIDIA Cosmos 3 开发物理 AI 推理、世界和动作模型 来源: https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3 物理 AI (https://www.nvidia.com/en-us/glossary/generative-physical-ai/) 系统必须在真实世界中采取行动之前,先理解这个世界。机器人、自动驾驶车辆和智能空间需要理解环境中正在发生什么,预测接下来可能发生什么,并为特定环境、具身形态和任务生成动作。 NVIDIA Cosmos 3 (https://www.nvidia.com/en-us/ai/cosmos/) 是一个面向物理 AI 的前沿基础模型,它在单个开放模型中整合了物理推理、世界生成和动作生成能力。 NVIDIA 正在开源 Cosmos 3 模型、训练脚本、部署工具和数据集,以使物理 AI 开发更开放、更可复现。这篇博文涵盖了 Cosmos 3 的基础知识,突出了技术报告 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf) 中的关键概念,引导读者了解技术工作流程,并展示了团队如何入手,用于机器人操控系统、自动驾驶车辆 (https://www.nvidia.com/en-us/glossary/autonomous-vehicles/) 和仓库监控解决方案。 一个由 Cosmos 3 为自动驾驶领域生成的视频片段。视频以车辆的视角展示了一个十字路口。另一辆车在前面穿过十字路口,然后这辆车左转。视频看起来非常逼真,展示了周围的房屋、树木和车辆。 *图 1. Cosmos 3 为自动驾驶领域生成的视频片段* 一个视频显示了一条走廊,两侧是货架上的箱子,地上有一堆箱子。三个人站在那堆箱子旁边。地板上一个箱子发生小爆炸,并开始冒烟。 *图 2. 使用 Cosmos 3 为仓库安全数据生成的视频* 此次发布的主要亮点包括: - NVIDIA Cosmos 3 Nano 和 NVIDIA Cosmos 3 Super 模型检查点已在 Hugging Face (https://huggingface.co/collections/nvidia/cosmos3) 上提供,代码在 GitHub (https://github.com/nvidia/Cosmos) 上。 - 面向物理 AI 应用(如机器人和自动驾驶)的开放数据集。 - 用于将 Cosmos 3 适配到特定领域的开放后训练脚本。 - Cosmos NIM 微服务,用于在 NVIDIA GPU 上轻松、优化地部署。 ## Cosmos 3 的新特性 https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3#what%E2%80%99s_new_in_cosmos_3 之前的 Cosmos 版本将世界生成、物理理解和受控场景生成分离到不同的模型和工作流程中。此次发布通过一个基于两个塔的 Mixture-of-Transformers (https://www.nvidia.com/en-us/glossary/mixture-of-transformers/) (MoT) 架构,将这些功能统一起来。 - **推理器塔 (Reasoner tower):** 一个视觉语言模型 (https://www.nvidia.com/en-us/glossary/vision-language-models/) (VLM),用于解释多模态观测数据,如图像、视频和文本。该塔使用自回归架构来解释输入,并理解运动、物体交互和其他物理上下文。这充当了在生成之前对世界进行推理的“大脑”。 - **生成器塔 (Generator tower):** 生成未来的观测数据和动作序列。该塔使用基于扩散的过程来生成具备物理感知的视频和动作输出,这些输出以推理器塔的理解为条件。可以独立调用推理器,但生成器总是同时激活两个塔以实现引导式生成。 Cosmos 3 架构图:一个自回归推理器塔,接收文本、图像、视频、音频和动作输入,连接到一个基于扩散的生成器塔,后者输出文本、图像、视频、音频和动作。来自推理器塔的信息单向流入生成器塔,从而实现连贯的生成。 *图 3. Cosmos 3 架构* 这种架构使单一模型能够执行推理和生成任务,通过消除多个模型和推理管道之间的编排来简化开发。 ### 选择合适的模型大小 https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3#choose_the_right_model_size 目前提供两种 Cosmos 3 模型: - **Cosmos 3 Nano** (http://huggingface.co/nvidia/Cosmos3-Nano) 是紧凑版本,拥有 160 亿参数,针对高效推理进行了优化。它设计用于工作站级计算,例如 NVIDIA RTX PRO 6000 GPU,适用于实时机器人推理和物理 AI 应用。 - **Cosmos 3 Super** (https://huggingface.co/nvidia/Cosmos3-Super) 是一个 640 亿参数的模型,旨在提供最高的质量和能力。它在基准测试中得分最高,目标是在 NVIDIA Hopper 和 NVIDIA Blackwell GPU 上的数据中心部署,适用于大规模合成数据生成和高级物理推理工作负载。 ### 支持的模态 https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3#supported_modalities Cosmos 3 通过其统一架构支持以下输入和输出模态: | **输入** | **输出** | **应用** | | :--- | :--- | :--- | | 文本 | 图像 | 物理合理的图像生成 | | 文本 \| 视频 | 视频 | 用于罕见边缘情况视频数据生成的世界模型 | | 文本 \| 图像 | 视频 | 用于预测的世界模型 | | 文本 \| 图像 \| 视频 | 文本 | 用于推理的 VLM | | 动作 \| 视频 \| 文本 | 视频 | 动作条件世界模型 | | 视频 \| 文本 | 视频 \| 动作 | 世界动作模型、视频动作模型、视觉语言动作模型、适用于机器人学习的策略模型 | *表 1. Cosmos 3 针对不同应用支持的输入和输出模态* ### 面向物理 AI 的开放数据集 https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3#open_datasets_for_physical_ai 随着 Cosmos 3 的发布,NVIDIA 在 Hugging Face 上开源了六个合成数据生成 (SDG) 数据集。这些数据集涵盖机器人技术、物理仿真、空间推理、人体运动、驾驶和仓库环境,可用于对 Cosmos 3 和其他模型进行后训练: 物理 AI 世界模型合成数据集包括: - 具身机器人场景 (http://huggingface.co/datasets/nvidia/PhysicalAI-SDG-RobotSim) - 物理交互场景 (http://huggingface.co/datasets/nvidia/PhysicalAI-SDG-PhysxSim) - 空间推理 (https://huggingface.co/datasets/nvidia/PhysicalAI-WorldModel-Synthetic-Spatial-Reasoning) - 数字人类场景 (http://huggingface.co/datasets/nvidia/PhysicalAI-SDG-SynHuman) - 自动驾驶场景 (http://huggingface.co/datasets/nvidia/PhysicalAI-SDG-DriveSim) - 仓库操作场景 (http://huggingface.co/datasets/nvidia/PhysicalAI-SDG-WareHouse) 具身机器人场景数据集中的一组视频。这些视频展示了不同的人形机器人在不同环境中执行操作任务。 *图 4. 具身机器人场景数据集中的操作示例* 物理交互场景数据集中的一组视频。这些视频展示了模拟场景,如撞锤撞击物体、玩具塔倒塌和多米诺骨牌倒下。对于每个场景,数据集都包含对应的真实物理标注,例如每个物体的速度、质心位移和每帧语义分割。 *图 5. 物理交互场景数据集中的示例* 一组展示空间推理数据集的图像,包括厨房、走廊、办公室和杂物间等场景。它还包含问答对,例如“咖啡桌离沙发有多远?”和“机器人到达书房的最佳路线是什么?” *图 6. 空间推理数据集中的示例* 数字人类场景数据集中的一组视频。这些视频展示了一些模拟的室内外环境,其中有数字人物站立和移动。这些视频提供了多样的人体外观、动作、场景上下文、光照和相机运动。 *图 7. 数字人类场景数据集中的示例* 自动驾驶场景数据集中的一组视频。这些视频来自自动驾驶车辆的自我视角,展示了车辆在不同场景下在道路上行驶。这些视频展示了多样的天气和光照条件以及驾驶行为,如变道和行人交互。 *图 8. 自动驾驶场景数据集中的示例* 仓库操作场景数据集中的一组视频。这些视频展示了从不同摄像机角度拍摄的模拟仓库场景。一些视频显示叉车移动并与人员或物体碰撞。在另一个视频中,一个人将一个纸箱掉在地上。 *图 9. 仓库操作场景数据集中的示例* ## NVIDIA Cosmos 人类评估基准 https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3#nvidia_cosmos_human_evaluation_benchmark NVIDIA Cosmos 人类评估 (HUE) 框架在代表性领域任务中评估 Cosmos 3 生成器的质量。 随着 SOTA 视频生成模型使现有自动化排行榜饱和,版本之间的分数差异往往太小而无法进行有意义的比较。HUE 将评估从主观评分转变为客观事实验证,实现了顶级模型之间的细粒度比较。结果是一个更可靠的质量信号,既适用于快速迭代,也适用于由完整人类评估支持的严谨发布决策。 HUE 使用原子二值验证来评估视频生成质量。每个生成的视频被分解为涵盖四个维度的单事实是/否问题——语义一致性、物理定律、几何推理和视觉完整性——跨越七个物理 AI 领域,包括机器人技术、自动驾驶车辆和物理学。这些问题由 VLM 管道生成,由人类专家完善,并作为开源发布在 Hugging Face (https://huggingface.co/datasets/nvidia/Cosmos-HumanEval-v1) 上。 ## 基准测试结果 https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3#benchmark_results Cosmos 3 已在多个基准测试套件上进行了评估,涵盖物理 AI 推理、生成质量和领域特定性能。 **推理基准测试** Cosmos 3 Super 和 Cosmos 3 Nano 分别领先于 320 亿参数档和 80 亿参数档的 VANTAGE-Bench: - VANTAGE-Bench (https://huggingface.co/spaces/clemson-computing/VANTAGE-Bench-Leaderboard):首个用于评估视觉语言模型在真实世界固定摄像头视频上的公共基准,涵盖仓库、交通和智能空间。 - 交通异常推理 (Traffic Anomaly Reasoning, TAR) (https://eval.aicitychallenge.org/aicity2026/submission/leaderboard?trackId=3&type=general):一个用于检测和推理交通视频中异常事件的新排行榜,也是 AI City Challenge 2026 Track 3 的官方排行榜。 **生成器基准测试** Cosmos 3 是开源 SOTA,目前在公共排行榜上领先 PAI-Bench、R-Bench Physics-IQ 和 RoboLab: - Artificial Analysis (https://artificialanalysis.ai/):一个对文本、图像和视频生成的 AI 模型进行排名的基准测试平台。Cosmos 3 在 Text to Image 排行榜 (https://artificialanalysis.ai/image/leaderboard/text-to-image) 和 Image to Video (no audio) 排行榜 (https://artificialanalysis.ai/video/leaderboard/image-to-video?audio-output=false) 上领先的开源模型。 - R-Bench (https://github.com/DAGroup-PKU/ReVidgen/):一个用于评估机器人视频生成中基于视频的世界模型的基准。它通过结构一致性、物理合理性和执行完整性等子指标评估任务完成度和视觉质量。 - PAI-Bench (https://github.com/SHI-Labs/physical-ai-bench):一个统一的基准,跨越视频理解和视频生成评估物理 AI,涵盖机器人技术、自动驾驶车辆和物理常识等领域。 - Physics-IQ (https://physics-iq.github.io/):一个真实世界视频的基准,测试生成视频模型是否真正理解物理原理,而不仅仅是实现视觉逼真度。 - RoboLab (https://research.nvidia.com/labs/srl/projects/robolab/):一个用于评估任务通用机器人策略的仿真基准。 ## **训练配方** https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3#training_recipes Cosmos 3 发布的一个核心组件是完全开放的训练配方集。除了模型检查点,此次发布还提供了用于将 Cosmos 3 适配到新领域、具身形态和数据集的代码、配置和工作流程。 **监督微调后训练** 监督微调 (SFT) 使开发者能够将 Cosmos 3 模型适配到他们自己的数据。发布的配方包括用于自定义视频数据集的视觉生成后训练,以及用于机器人技术和物理 AI 工作流程的面向动作的配方。开发者可以针对机器人技术、自动驾驶和仓库自动化等目标领域自定义 Cosmos 3。 后训练代码和配置 (https://github.com/NVIDIA/cosmos-framework/blob/main/docs/training.md) 可在 GitHub 上获取。 **动作后训练** 动作后训练将 Cosmos 3 适配到动作感知的物理 AI 应用,包括正向动力学、逆向动力学和策略生成。开发者可以在带有动作标签的数据上对 Cosmos 3 进行后训练。对于机器人应用,这包括几个重要的工作流程:生成以机器人动作条件化的未来观测数据、推断观测演示背后的动作,以及从当前观测和任务提示中预测动作序列。这使得 Cosmos 3 成为世界动作建模和策略学习的强大基础。 *视频 1. 展示如何对 Cosmos 3 进行后训练的教程视频* ## 使用 NVIDIA NIM 微服务进行部署 https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3#deploy_with_nvidia_nim_microservices Cosmos 3 模型也可以作为 NVIDIA NIM 微服务 (https://build.nvidia.com/) 提供,用于优化、生产就绪的部署。NIM 微服务将模型与优化的推理运行时打包,无需手动调整服务基础设施即可提供高性能。与 GitHub 上的 Cosmos 3 仓库相比,NIM 微服务对于推理工作流程更易于使用,而 GitHub 仓库更适合后训练工作流程。 Cosmos 3 Reasoner NIM 现已可用,提供 Cosmos 3 模型的推理能力。敬请关注 Cosmos 3 Generator NIM,它将提供 Cosmos 3 模型的完整生成能力。 **为加速推理所做的优化** - **量化:** Cosmos 3 NIM 支持选择 **BF16、FP8 或 NVFP4** 量化检查点。NVFP4 量化将模型的数值精度从 BF16 降低到 4 位浮点,可实现高达 2 倍的推理加速。 - **vLLM:** 是一个开源推理引擎,使用连续批处理、分页注意力和张量并行等技术来高效服务 LLM。Cosmos 3 Reasoner NIM 服务堆栈基于 vLLM 构建,与传统的服务方法相比可实现更高的吞吐量。Cosmos 3 Nano 已准备好与 vLLM-omni 和 NVIDIA Dynamo 一起运行,以获得顶级性能。 - **高效视频采样 (Efficient Video Sampling, EVS):** 该技术减少了推理期间送入 VLM 的视频令牌数量。

相似文章

Cosmos 3 如何帮助物理 AI 在行动前思考

NVIDIA Blog

NVIDIA 宣布推出 Cosmos 3,这是一个开放的世界基础模型,结合了视觉推理、多模态生成和动作预测,帮助机器人、自动驾驶车辆和 AI 代理理解并预测现实世界的动态。

nvidia/Cosmos3-Super

Hugging Face Models Trending

NVIDIA 发布了 Cosmos3,这是一套用于物理AI的全模态世界基础模型,能够从多种输入生成视频、图像、音频和动作指令,并提供针对不同任务(如策略学习和图像到视频生成)的版本。

NVIDIA/cosmos

GitHub Trending (daily)

NVIDIA Cosmos 是一个开放平台,提供世界模型、数据集和工具,旨在帮助开发者为机器人、自动驾驶车辆和智能基础设施构建物理AI应用。