nvidia/Cosmos3-Super
摘要
NVIDIA 发布了 Cosmos3,这是一套用于物理AI的全模态世界基础模型,能够从多种输入生成视频、图像、音频和动作指令,并提供针对不同任务(如策略学习和图像到视频生成)的版本。
查看缓存全文
缓存时间: 2026/06/02 15:40
nvidia/Cosmos3-Super · Hugging Face 来源:https://huggingface.co/nvidia/Cosmos3-Super ## https://huggingface.co/nvidia/Cosmos3-Super#cosmos-3-omnimodal-world-models-for-physical-aiCosmos 3:面向物理AI的全模态世界模型 模型集合 (https://huggingface.co/collections/nvidia/cosmos3) | 代码 (https://github.com/nvidia/cosmos) | 白皮书 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf) | 网站 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/) NVIDIA Cosmos™ (https://github.com/nvidia/cosmos) 是一个世界基础模型平台,旨在加速物理AI的开发,使机器能够理解、模拟和交互物理世界,涵盖机器人、自动驾驶以及智能空间环境(包括工业和工厂级应用)。 ## https://huggingface.co/nvidia/Cosmos3-Super#model-overview-cosmos3-super模型概述:Cosmos3-Super ## https://huggingface.co/nvidia/Cosmos3-Super#description描述 Cosmos3 是一个全模态世界模型集合,能够根据文本、图像、视频和动作轨迹的组合输入,生成动态、高质量的视频、图像、音频和动作指令。它是广泛物理AI应用和研究的基石,涵盖世界理解、世界生成、仿真和具身策略学习等领域。本模型可用于商业和非商业用途。 **模型开发者:**NVIDIA ### https://huggingface.co/nvidia/Cosmos3-Super#model-versions模型版本 - Cosmos3-Nano: - 给定包含文本、图像、视频、音频和动作轨迹的多模态输入,生成连贯的文本、图像、视频、音频和动作输出,用于多模态理解、世界仿真、未来预测、动作推理和物理AI应用。 - Cosmos3-Super: - 给定包含文本、图像、视频、音频和动作轨迹的多模态输入,生成连贯的文本、图像、视频、音频和动作输出,用于多模态理解、世界仿真、未来预测、动作推理和物理AI应用。 - Cosmos3-Nano-Policy-DROID: - 给定DROID机器人平台的语言指令和视觉观察,生成用于操作和控制任务的机器人动作轨迹。 - Cosmos3-Super-Image2Video: - 给定一张输入图像和文本指令,生成与提供的视觉内容一致的、时间上连贯的视频序列。 - Cosmos3-Super-Text2Image: - 给定文本输入,生成与描述一致的高保真图像。 ### https://huggingface.co/nvidia/Cosmos3-Super#license许可证 本模型根据 OpenMDW 1.1 (https://openmdw.ai/license/1-1/) 许可证发布。 ### https://huggingface.co/nvidia/Cosmos3-Super#deployment-geography部署地域 全球 ### https://huggingface.co/nvidia/Cosmos3-Super#use-case用例 物理AI:涵盖机器人、自动驾驶车辆(AV)以及智能空间环境,包括工业和工厂级应用。 ### https://huggingface.co/nvidia/Cosmos3-Super#release-date发布日期 Hugging Face:2026年5月31日,通过 https://huggingface.co/collections/nvidia/cosmos3 GitHub:2026年5月31日,通过 https://github.com/nvidia/cosmos ## https://huggingface.co/nvidia/Cosmos3-Super#model-architecture模型架构 **架构类型:**Transformer **网络架构:**混合专家Transformer(MoT) Cosmos3 是一个基于混合专家Transformer(MoT)架构构建的全模态基础模型,包含两个互补的Transformer模块:一个用于离散标记生成的自回归Transformer,以及一个用于连续多模态生成的扩散Transformer。在推理过程中,文本通过标准的下一标记自回归解码生成,而图像、视频、音频和动作等非文本模态则通过迭代去噪进行合成。这种统一架构使Cosmos3能够在单一框架内建模异构模态,同时保留最适合每种模态的生成机制。 **本模型基于以下内容开发:**Cosmos Framework (https://github.com/nvidia/cosmos-framework) 模型可训练参数数量: - Cosmos3-Nano:160亿 - Cosmos3-Super:640亿 - Cosmos3-Nano-Policy-DROID:160亿 - Cosmos3-Super-Image2Video:640亿 - Cosmos3-Super-Text2Image:640亿 ## https://huggingface.co/nvidia/Cosmos3-Super#inputoutput-specifications输入/输出规格 - 生成器输入- **输入类型:**文本、图像、视频(含或不含音频)、动作轨迹 - 输入格式:- 文本:字符串 - 图像:jpg、png、jpeg、webp - 视频(含或不含音频):mp4 - 动作:json(一维列表) - 输入参数:- 文本:一维(1D) - 图像:二维(2D) - 视频:三维(3D) - 音频:一维(1D) - 动作轨迹:一维(1D) - 其他与输入相关的属性:- 对于视频输入,我们接受多种分辨率,包括720p、480p和256p。 - 当使用已将音频混入视频MP4文件的输入视频时,音频应为2通道(立体声)且采样率为48 kHz。 - 图像和视频输入为RGB色彩(每通道8位,sRGB色彩空间);不支持灰度输入。 - 动作输入是按帧序列的机器人/代理状态或控制值(例如,关节位置、夹爪状态、相机位姿)。完整输入是一个形状为 (T, D) 的二维数组,其中T是帧数,D是下方列出的具身特定维度。 - 仅对兼容的具身形态支持输入动作,包括通用相机运动(9D)、自动驾驶车辆(9D)、自我中心运动(57D)、单Franka Panda臂带RobotiQ夹爪(10D)、双Franka Panda臂带RobotiQ夹爪(20D)、Agibot(29D)、UR(10D)、Google robot(10D)、WidowX 250(10D)、UMI(9D)。 - 输入大小和长度限制:- **文本:**4096个标记 - **图像:**256p、480p和720p分辨率,支持以下宽高比之一(16:9、4:3、1:1、3:4、9:16) - **视频:**256p、480p和720p分辨率,支持以下宽高比之一(16:9、4:3、1:1、3:4、9:16)。最大帧数 = 5。 - **音频:**最大0.5秒 - **动作:**16 – 400视频帧 - 生成器输出- **输出类型:**图像、视频、音频、动作、文本 - 输出格式:- 图像:JPG - 视频:MP4 - 音频:高级音频编码(AAC)流(混入MP4中) - 动作:一维列表(.json) - 文本:字符串 - 输出参数:- 图像:二维(2D) - 视频:三维(3D) - 音频:一维(1D) - 动作:一维(1D) - 文本:一维(1D) - 其他与输出相关的属性:- 生成的视频为MP4文件,分辨率、帧率和时长由输入指定。生成的音频采用AAC格式编码,混入视频MP4文件中,2通道(立体声),采样率为48 kHz。 - 视频生成支持5到400帧的时长,默认生成长度为189帧。 - 仅对兼容的具身形态支持生成动作,包括通用相机运动(9D)、自动驾驶车辆(9D)、自我中心运动(57D)、单Franka Panda臂带RobotiQ夹爪(10D)、双Franka Panda臂带RobotiQ夹爪(20D)、Agibot(29D)、UR(10D)、Google robot(10D)、WidowX 250(10D)、UMI(9D)。 - 音频:48 kHz立体声AAC流混入视频mp4中 - 视频:mp4格式,帧率由输入指定 - 图像:JPEG格式 - 推理器输入- **输入类型:**文本、文本+图像、文本+视频 - 输入格式:- 文本:字符串 - 图像:jpg、png、jpeg、webp - 视频:mp4 - 输入参数:- 文本:一维(1D) - 图像:二维(2D) - 视频:三维(3D) - 其他与输入相关的属性:- 视频输入建议帧率为4 fps。 - 支持最多256K标记的长上下文输入。 - 输入大小和长度限制:- **文本:**最多256K标记(上下文窗口)。 - **图像:**标准输入图像格式;以文件或URL形式传递。 - **视频:**mp4格式,建议帧率为4 fps。 - 推理器输出- **输出类型:**文本 - 输出格式:- 文本:字符串 - 输出参数:- 文本:一维(1D) - 其他与输出相关的属性:- 建议将默认 max_tokens=4096+ 用于推理输出;可请求更长的输出。 - 推理输出可能包含结构化的思维链、2D/3D点定位和基于视觉任务的边界框坐标。视频内容将输入文本描述可视化为一个短动画场景,在指定时间约束内捕捉关键元素。我们的AI模型旨在/或针对在NVIDIA GPU加速系统上运行进行了优化。通过利用NVIDIA的硬件(例如,GPU核心)和软件框架(例如,CUDA库),该模型相比仅CPU解决方案实现了更快的训练和推理时间。 ## https://huggingface.co/nvidia/Cosmos3-Super#software-integration软件集成 运行时引擎: - PyTorch (https://github.com/nvidia/cosmos3) - vLLM-Omni (https://github.com/vllm-project/vllm-omni) - Hugging Face Diffusers (https://huggingface.co/docs/diffusers/en/index) 支持的硬件微架构兼容性: - NVIDIA Ampere - NVIDIA Blackwell - NVIDIA Hopper 操作系统: - Linux(我们未在其他操作系统上进行测试。) **注意:**仅测试了BF16精度。FP4、FP8和FP16等其他精度不受官方支持。将基础模型和微调模型集成到AI系统中需要进行额外的测试,使用特定于用例的数据,以确保安全有效的部署。遵循V模型方法,在单元和系统级别进行迭代测试和验证对于降低风险、满足技术和功能需求以及确保部署前符合安全和道德标准至关重要。 ## https://huggingface.co/nvidia/Cosmos3-Super#training-testing-and-evaluation-datasets训练、测试和评估数据集 ### https://huggingface.co/nvidia/Cosmos3-Super#dataset-overview数据集概述 - **总大小:**13亿数据点 - **数据集总数:**393个数据集条目 - **数据集划分:**训练 [100%],测试 [不适用 — 评估基准单独使用],验证 [不适用 — 评估基准单独使用] - **训练数据收集时间段:**2024–2026 - **测试数据收集时间段:**不适用(标准公开基准) - **验证数据收集时间段:**不适用(标准公开基准) 来自内部和外部来源的原始数据通过多个阶段的整理、过滤和质量审查转换为可用于训练的数据。数据采集涵盖多样的多模态来源 — 机器人、自动驾驶、工业环境、室内和室外场景、多样的光照和天气条件、相机视角、目标类别和人类活动 — 以扩大物理AI操作环境的覆盖范围。自动过滤管道移除损坏、重复、低质量和受限内容。在预处理过程中应用元数据分析、启发式规则和模型辅助分类器,以标记异常分布和低多样性子集。对于选定的数据集、基准构建和有针对性的质量分析,人工审查补充自动过滤。数据集在模态和任务类别之间进行平衡 — 视觉推理、文本到图像、文本到视频、图像到视频、音频生成、视频转换、动作条件生成和动作指令生成 — 以减少狭窄领域的过度代表。合成和基于仿真的增强补充了对罕见物理交互和边缘场景的覆盖。对整个语料库应用去重和来源追踪。最终处理后的数据通过特定模态的预处理器转换为模型就绪的标记化或编码表示,然后开始训练。 训练数据集通过了多层自动和手动安全措施,旨在减少各类有害或违反政策的内容,包括武器及武器相关的教学内容、犯罪策划、儿童性虐待材料(CSAM)、非自愿私密图像(NCII)、涉及未成年人的性内容、骚扰、仇恨言论、脏话、威胁和煽动暴力、自残或自杀相关内容以及严重暴力。数据来源在纳入训练语料库之前,会审查其许可兼容性、来源以及与内部数据治理和安全政策的一致性。 自动过滤管道结合了多种检测策略:针对已知CSAM和NCII参考数据库的哈希匹配;针对明确性内容、仇恨言论、暴力、武器图像和其他受限类别的基于分类器的审核模型;针对文本数据中犯罪策划、威胁和自残短语的关键词和正则表达式筛查;元数据和来源启发式规则,用于源级别风险信号;以及基于嵌入的异常检测,以发现落在预期分布之外的样本。对于选定的数据集、基准构建和安全敏感评估,人工审查和有针对性的审核补充自动过滤。对于多模态物理AI数据(机器人、自动驾驶、工业场景),额外的过滤针对无效动作轨迹、物理不可信的交互和不安全的控制序列。合成数据和仿真生成的数据在纳入前通过内部验证进行评估。训练后应用基准评估和红队测试,以揭示世界生成、推理、音频和动作任务中剩余的安全差距。没有大规模数据过滤过程能够保证完全移除所有有害内容;残余风险可能依然存在,特别是在罕见的边缘情况或开放世界部署环境中。发布后持续进行监控和数据集审查。 数据模态和训练数据大小 模态 | 推理数据样本数 | 生成数据样本数
文本 | 22M | 不适用 图像 | 19M | 767M 视频 | 1M | 348M 音频 | 不适用 | 139M 动作 | 不适用 | 8M 按数据集的数据收集方法 - 混合:自动/传感器、合成、自动化 按数据集的标注方法 - 混合:人工、自动化 **属性:**训练、测试和评估数据集包含来自NVIDIA自有数据和公开可用、商业许可的数据集的多模态视频、图像、音频、动作、合成和传感器条件数据。这些数据集经过整理,以排除已知的受限内容,并支持构建一个能够生成和推理动态物理环境的全模型,涉及世界推理和生成任务。 ### https://huggingface.co/nvidia/Cosmos3-Super#public-datasets公开数据集 数据集 | 样本数 — | — OpenImage | 1.2M Coyo | 700M 100M | - YouTube Video | 340M UMI | 4.5M ### https://huggingface.co/nvidia/Cosmos3-Super#private-datasets私有数据集 数据集 | 样本数 — | — 自我中心数据 | 7M Nexar | 0.6M AgiBot | 0.2M HOI | 0.3M ### https://huggingface.co/nvidia/Cosmos3-Super#synthetic-datasets合成数据集 数据集 | 样本数 — | — 使用HiDream-I生成的合成图像 | 115M 使用Qwen-Image-2512生成的合成图像 | 14M 使用Qwen3-VL生成的合成描述 | 1115M ## https://huggingface.co/nvidia/Cosmos3-Super#evaluation-datasets评估数据集 按数据集的数据收集方法 - 混合:自动/传感器、合成、自动化 按数据集的标注方法 - 混合:人工、自动化
相似文章
nvidia/Cosmos3-Nano
NVIDIA 发布 Cosmos3-Nano,一个用于物理 AI 的全能世界模型,能够从文本、图像、视频和动作输入生成视频、图像、音频和动作指令,面向机器人、自动驾驶和智能空间应用。
nvidia/Cosmos3-Super-Image2Video
NVIDIA 发布 Cosmos3-Super-Image2Video,该模型能够根据输入图像和文本指令生成时间上连贯的视频序列,是面向物理 AI 应用的 Cosmos 3 全模态世界模型平台的一部分。
Cosmos 3: 用于物理AI的全模态世界模型
Cosmos 3是NVIDIA推出的一系列全模态世界模型,采用统一的混合Transformer架构联合处理语言、图像、视频、音频和动作序列,在物理AI的理解和生成任务上达到了最先进水平。
Nvidia Cosmos 3
NVIDIA 开源了 Cosmos 3,这是一个物理AI的前沿基础模型,将推理、世界生成和动作生成统一在单一的 Mixture-of-Transformers 架构中,并发布了用于机器人、自动驾驶和仓库监控的模型检查点、数据集和训练脚本。
nvidia/Cosmos3-Super-Text2Image
NVIDIA 发布了 Cosmos3-Super-Text2Image,这是一个文生图模型,属于 Cosmos3 全模态世界模型平台的一部分,用于物理 AI,使机器能够理解和模拟物理世界。