欢迎 NVIDIA Cosmos 3:首个用于物理AI推理与行为的开放全能模型
摘要
NVIDIA Cosmos 3 是一个面向物理AI的开放全能模型,它将世界生成、推理和行为生成统一到一个模型中,现已可在 Hugging Face 上获取,并提供多种资源。
查看缓存全文
缓存时间: 2026/06/01 06:55
欢迎使用 NVIDIA Cosmos 3:首个面向物理 AI 推理与行动的开放全能模型
来源:https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai 返回文章列表 (https://huggingface.co/blog)
Asawaree 的头像 (https://huggingface.co/asawareeb)
Atharva Joshi 的头像 (https://huggingface.co/atharvajoshi10)
- 第一部分:Cosmos 3 有何新特性? (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-1-whats-new-with-cosmos-3)
- 第二部分:Cosmos 3 的能力 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-2-cosmos-3-capabilities)
- 第三部分:在 Diffusers 中使用 Cosmos 3 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-3-using-cosmos-3-with-diffusers)
- 第四部分:物理 AI 的数据集 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-4-datasets-for-physical-ai)
- 第五部分:Cosmos 框架 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-5-cosmos-framework)
- 第六部分:资源 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-6-resources)
- 致谢 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#acknowledgments)
NVIDIA Cosmos 3 (https://www.nvidia.com/en-us/ai/cosmos/) 现已发布,并可在 Hugging Face (https://huggingface.co/collections/nvidia/cosmos3) 上获取。Cosmos 3 代表了物理 AI 世界基础模型 (https://www.nvidia.com/en-us/glossary/world-models/)(WFM) 的重大飞跃:一个单一、统一的「全能模型」,将世界生成、物理推理和行动生成集于一体。不再需要在不同模型和推理管线之间切换——Cosmos 3 一应俱全。
无论您是构建机器人、自动驾驶汽车还是智能空间,Cosmos 3 都为您提供了模拟和理解物理世界的基础。
本次发布包含以下内容:
- Cosmos 3 Super 和 Cosmos 3 Nano 已在 Hugging Face 上提供,包含模型卡和许可信息
- Cosmos 3 Diffusers 集成,用于生成管线
- 后训练脚本,用于在您自己的数据上训练 Cosmos 3(在 GitHub 上)
- 面向物理 AI 的开放合成数据生成(SDG)数据集
目录
- Cosmos 3 有何新特性? (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-1-whats-new-with-cosmos-3)
- Cosmos 3 的能力 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-2-cosmos-3-capabilities)
- 在 Diffusers 中使用 Cosmos 3 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-3-using-cosmos-3-with-diffusers)
- 物理 AI 的数据集 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-4-datasets-for-physical-ai)
- Cosmos 框架 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-5-cosmos-framework)
- 资源 (https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-6-resources)
https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-1-whats-new-with-cosmos-3第一部分:Cosmos 3 有何新特性?
与之前的 Cosmos 版本相比,Cosmos 3 最大的变化在于它是一个基于混合 Transformer (MoT) 架构构建的全能模型。此前,开发者需要使用不同的模型来实现不同的能力,例如世界生成(Cosmos Predict)、受控生成(Cosmos Transfer)、场景理解(Cosmos Reason)和策略生成(Cosmos Policy)。Cosmos 3 将所有这一切集成到一个单一的模型中,能够在一个统一的前向过程中进行推理和生成不同模态。
这意味着您现在可以通过一个模型完成以下所有操作:
- 从文本、图像、视频或动作输入中生成真实且物理上合理的视频世界
- 推理物理属性,如运动、因果关系和空间关系
- 基于当前状态预测未来的视频和动作序列
这对物理 AI 为何重要
Cosmos 3 有助于构建能够理解真实世界的物理 AI 系统。不仅仅是像素和 token,还包括运动、因果关系、物理和动作。无论您是在训练机器人叠衣服,构建自动驾驶模拟,还是为仓库安全场景生成合成训练数据,Cosmos 3 正是为这些用例量身打造的基础模型。
由 Cosmos 3 为机器人抓取和放置用例生成的视频。
由 Cosmos 3 为长尾驾驶场景生成的视频。
使用 Cosmos 3 为仓库安全数据生成的图像到视频。
Cosmos 3 在自动驾驶应用中的思维链推理。
架构
Cosmos 3 基于 MoT 主干构建,该主干在一个统一的架构内处理所有模态——文本、图像、视频、音频和动作。每种模态首先由专用编码器(用于视觉理解的 ViT,用于视觉/音频生成的 VAE,以及用于动作的领域感知向量)编码,然后投影到共享表示空间。
cosmos3-architecture-diagram (https://cdn-uploads.huggingface.co/production/uploads/6799309995f2227228bc38f3/IBreD1akJz8T47xKva3_B.png)
输入序列被分为两个子序列:一个自回归 (AR) 子序列,通过下一个 token 预测处理推理和理解;一个扩散 (DM) 子序列,通过迭代去噪处理生成。AR 和 DM token 在每个 transformer 层中使用独立的参数集,但通过联合注意力机制进行交互——这使得单个模型能够在不进行任何架构更改的情况下,无缝地在 VLM、视频生成器、前向/反向动力学模型或机器人策略之间切换。
模型版本
本次发布的 Cosmos 3 包含两种模型大小,针对不同的部署场景进行了优化:
- Cosmos 3 Nano – 这是 8B 参数模型(8B 推理器和 8B 生成器),针对高效推理进行了优化。Cosmos 3 Nano 设计用于在 RTX PRO 6000 GPU 等工作站级计算设备上运行,可在 Hugging Face 上的 nvidia/Cosmos3-Nano (http://huggingface.co/nvidia/Cosmos3-Nano) 获取。
- Cosmos 3 Super – 这是 32B 参数模型(32B 推理器和 32B 生成器),专为大规模合成数据生成 (SDG) 和研究而设计,运行于 NVIDIA Hopper 和 Blackwell GPU 上。Cosmos 3 Super 可在 Hugging Face 上的 nvidia/Cosmos3-Super (http://huggingface.co/nvidia/Cosmos3-Super) 获取。
https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-2-cosmos-3-capabilities第二部分:Cosmos 3 的能力
Cosmos 3 通过单一统一模型支持多种输入和生成模态:
| 输入模态 | 输出模态 | 应用 |
|---|---|---|
| 文本 | 图像 | 视频 | 视频 | 视频模型 |
| 文本 | 视频 | 文本 | 视觉语言模型 (VLM) |
| 动作 | 图像 | 文本 | 视频 | 前向动力学模型 |
| 文本 | 视频 | 动作 | 反向动力学模型 |
| 图像 | 文本 | 视频 & 动作 | 策略模型 |
提示词指南
对于视频生成,我们建议使用叙事段落形式的详细提示词。例如:
视频开始时,从一辆在多车道高速公路上行驶的车辆内部看到的景象,天空晴朗。道路两旁绿树成荫,营造出宁静的环境。前方可见多辆汽车,包括一辆显眼的白色半挂卡车和各式小汽车,均保持稳定速度。高速公路有多条车道,由混凝土护栏分隔开。场景沐浴在明亮的阳光下,表明是晴朗的一天。随着视频推进,前方车道突然出现大量碎片。由于躲避时间有限,本车只能驶过碎片并继续前进。当本车驶过散落的物体时,会明显感到颠簸。从车辆内部拍摄的第一人称视角镜头,捕捉前方道路和周围环境。
对于动作生成,提示词应简洁并提供空间参考。例如:
将锅放在紫色物品的左侧。此视频是从第一人称视角拍摄的场景。
请参阅 GitHub 上的提示词指南,了解提示词上采样模板以及编写高质量提示词的最佳实践。
https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-3-using-cosmos-3-with-diffusers第三部分:在 Diffusers 中使用 Cosmos 3
Cosmos 3 已与 Hugging Face Diffusers 库集成,只需几行代码即可轻松使用世界生成管线。您可以通过熟悉的 DiffusionPipeline 使用 Cosmos3OmniPipeline 运行 Cosmos 3。其目标是实现 Cosmos 3 的无缝采用,并与您现有的管线集成。
让我们看一个使用 Cosmos 3 Nano 模型进行单帧生成的文本到图像示例:
`` import torch from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained( “nvidia/Cosmos3-Nano”, torch_dtype=torch.bfloat16, device_map=“cuda” )
prompt = ( “一个现代机器人研究实验室的中景,白色墙壁,灰色地板。” “一个金属质感的机械臂安装在干净的工作台上,其夹爪位于一排彩色小物体上方。” “一台笔记本电脑和整齐排列的工具放在机器人旁边。” “后面墙上的大显示器显示着软件界面。” “场景被头顶的荧光灯照亮。” )
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280) result.video[0].save(“cosmos3_t2i.jpg”, format=“JPEG”, quality=85) ``
以下是 Cosmos 3 Nano 模型根据给定提示词生成的图像:
文档中还提供了文本到视频、图像到视频等示例。有关信息和 API 用法,请参阅 Cosmos 3 Diffusers 文档 (https://huggingface.co/docs/diffusers/main/en/api/pipelines/cosmos3)。
https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-4-datasets-for-physical-ai第四部分:物理 AI 的数据集
作为 Cosmos 3 发布的一部分,NVIDIA 发布了一组合成数据生成 (SDG) 数据集,以帮助物理 AI 社区训练和评估世界基础模型。这些数据集由 NVIDIA 多个团队生成,并可在 Hugging Face 上获取。
https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-5-cosmos-framework第五部分:Cosmos 框架
Cosmos 框架 (https://github.com/NVIDIA/Cosmos-Framework) 是一个端到端的框架,用于训练和服务像 Cosmos 3 这样的 WFM。您将在这里找到推理和后训练脚本,以及用于开发的智能体技能。
后训练 Cosmos 3
Cosmos 3 开箱即用即可理解和生成机器人、自动驾驶汽车和智能空间的世界视频和动作,但某些应用可能需要针对特定数据集进行进一步的后训练以获得最佳结果。我们鼓励对 Cosmos 3 进行针对不同机器人、环境和任务的后训练——请查看仓库中的后训练指南。
智能体技能
该仓库还附带智能体技能,可让开发变得快速而简单。这些技能有助于验证需求、设置环境及依赖项。您还可以使用它们来了解仓库结构和示例、起草良好的提示词,或运行推理和后训练脚本。
https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#section-6-resources第六部分:资源
阅读 Cosmos 3 技术博客 (https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3),了解 Cosmos 3 的能力、性能、后训练以及使用 NIM 微服务的部署。
- Cosmos 3 GitHub (https://github.com/nvidia/Cosmos)
- Cosmos 3 NIM 微服务 (https://build.nvidia.com/models?q=cosmos)
- Cosmos Cookbook (https://nvidia-cosmos.github.io/cosmos-cookbook/)
- Cosmos 页面 (https://www.nvidia.com/en-us/ai/cosmos/)
- Cosmos 3 技术论文 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf)
- Diffusers Cosmos 文档 (https://huggingface.co/docs/diffusers/main/en/api/pipelines/cosmos3)
https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai#acknowledgments致谢
Cosmos 3 是 NVIDIA 众多团队和个人之间精彩合作的结果,包括——
Adeline Aubame, Aditya Mahajan, Aigul Dzhumamuratova, Akash Gokul, Akul Santhosh, Aleksandr Efitorov, Alex Sotelo, Alexander Schwarz, Alperen Degirmenci, Amol Fasale, Andrew Tham, Ankur Handa, Arihant Jain, Arslan Ali, Artur Zolkowski, Aryaman Gupta, Asawaree Bhide, Ashkan Mirzaei, Ashley Chow, Ashna Khetan, Atharva Joshi, Barnaby Simkin, Benedikt Falk, Brett Hamilton, Carlos Casanova, Chaeyeon Chung, Charles Zhou, Chen-Hsan Lin, Chen-Hsuan Lin, Chhavi Nijhawan, Chieh-Yun Chen, Chintan Shah, Chris Helvig, Chris Pruett, Cindy Zha, Cyrus Hogg, Dahjung Chung, Dan Blick, David Wehr, Dawid Majchrowski, DeLesley Hutchins, Delin Qu, Dennis Lynch, Diego Garzon, Dima Zhylko, Durra Mohsin, Egor Krivov, Ekram Mukbil, Eric Cameracci, Fangyin Wei, Fengzhe Zhou, Francesco Ferroni, Freya Li, George Kurian, Gwanghyun Kim, Haaland Hao Liang, Hai Loc Lu, Hans Yang, Hao Liang, Hao Wang, Hesam Rabeti, Hugo Hadfield, Hyejin Moon, Itai Zadok, Jayjun Lee, Jeana Choi, JF Lafleche, Jiangran Lyu, Jiaojiao Fan, Jiaxiang Tang, Jibin Varghese, Jim Fan, Jingyi Jin, Jinwei Gu, Jon Allen, Joshua Bapst, Joyjit Daw, Julia Kiczka, Julian Ouyang, Kaichun Mo, Kayley Ting, Ke Ding, Kedi Wu, Kevin Brady, Kirill Motkov, Kristen Rumley, Krzysztof Tomala, Liang Feng, Liangkai Zhang, Ling Li, Louis Marcoux, Maciej Bala, Madison Huang, Magdalena Dadela, Mahesh Patekar, Marco Di Lucca, Marilyn Reeb, Mark Carlson, Martin Antolini, Mateusz Sieniawski, Matt Cragun, Meredith Price, Michael Huang, Miguel Guerrero, Miguel Martin, Min Shi, Ming-Yu Liu, Mohammad Harrim, Morteza Ramezanali, Mukesh Beladiya, Nalin Dadhich, Naomi Eigbe, Nathan Hayes-Roth, Nicole Drumheller, Nikhilesh Joshi, Omar Laymoun, Paris Zhang, Paula Ramos, Pawel Morkisz, Peter Gambrill, Pooya Jannaty, Pooya Khaloo, Pranjali Joshi, Qi Wang, Qianli Ma, Qiao Wang, Qing Miao, Qizhi Chen, Rahul Heinrich Steiger, Raju Wagwani, Robert Denomme, Rodrigo Vieira Del Monte, Roy Anthony, Ruqing Xu, Ryan Bernard, Ryan Ji, Saeid Motiian, Sandip Bhaskar, Sandra Skaff, Santanu Dutta, Saurav Kumar, Sehwi Park, Sergiy Fefilatyev, Shangkun Sun, Shangru Li, Shilin Zhu, Shreyas Misra, Shun Zhang, Shuran Song, Simon Yuen, Simon Zhang, Slawek Kierat, Smita Ithape, Soha Pouya, Sophia Huang, Stefanie Manzinger, Steven Baughman, Suneel Indupuru, Sunil Srinivasa, Sunny Kim, Tavish Chen, Thabang Ngazimbi, Thomas Volk, Tianwei She, Tiffany Cai, Ting-Chun Wang, TJ Galda, Tolou Tavakkoli, Tomasz Kornuta, Trung Pham, Tsung-Yi Lin, Vanni Brighella, Varun Praveen, Wei-Cheng Tseng, Wenjie Luo, Wesley Li, Wojciech Kutak, Wojciech Rymer, Xiangyu Lu, Xiaodong Yang, Xiaotong Chen, Xin Kong, Xinquan Xu, Xiu Chia, Xuning Yang, Yan Chang, Yan Wang, Yanan Jian, Yao Xu, Yashraj Narang, Yeongho Seol, Yichu Yang, Yifan Ding, Yihuai Gao, Yilin Zhao, Yin Cui, Yogesh Balaji, Yu Wang, Yu-Wei Chao, Yue Tang, Yufan Huang, Yuke Zhu, Yuliya Zhautouskaya, Yurong You, Yuzhu Dong, Zaid Pervaiz Bhat, Zekun Hao, Zhaoshuo Li, Zhizheng Zhang.
相似文章
Nvidia Cosmos 3
NVIDIA 开源了 Cosmos 3,这是一个物理AI的前沿基础模型,将推理、世界生成和动作生成统一在单一的 Mixture-of-Transformers 架构中,并发布了用于机器人、自动驾驶和仓库监控的模型检查点、数据集和训练脚本。
NVIDIA 推出 Cosmos 3,面向物理AI的开放前沿基础模型(5分钟阅读)
NVIDIA 发布 Cosmos 3,这是一个面向物理AI的开放基础模型,采用混合Transformer架构,支持推理、世界模拟和动作生成,适用于机器人和自动驾驶车辆。
Cosmos 3 如何帮助物理 AI 在行动前思考
NVIDIA 宣布推出 Cosmos 3,这是一个开放的世界基础模型,结合了视觉推理、多模态生成和动作预测,帮助机器人、自动驾驶车辆和 AI 代理理解并预测现实世界的动态。
nvidia/Cosmos3-Nano
NVIDIA 发布 Cosmos3-Nano,一个用于物理 AI 的全能世界模型,能够从文本、图像、视频和动作输入生成视频、图像、音频和动作指令,面向机器人、自动驾驶和智能空间应用。
nvidia/Cosmos3-Super
NVIDIA 发布了 Cosmos3,这是一套用于物理AI的全模态世界基础模型,能够从多种输入生成视频、图像、音频和动作指令,并提供针对不同任务(如策略学习和图像到视频生成)的版本。