nvidia/Cosmos3-Nano

Hugging Face Models Trending 2026/03/10 23:01 模型

nvidia cosmos3 physical-ai world-model multimodal generative-ai robotics

摘要

NVIDIA 发布 Cosmos3-Nano，一个用于物理 AI 的全能世界模型，能够从文本、图像、视频和动作输入生成视频、图像、音频和动作指令，面向机器人、自动驾驶和智能空间应用。

标签：cosmos, diffusers, safetensors, cosmos3_omni, nvidia, cosmos3, vllm, vllm-omni, 文本、图像、视频、音频和动作生成, 全能模型, 许可证：其他, 地区：美国

查看原文

查看缓存全文

缓存时间: 2026/06/02 02:25

nvidia/Cosmos3-Nano · Hugging Face 来源：https://huggingface.co/nvidia/Cosmos3-Nano ## https://huggingface.co/nvidia/Cosmos3-Nano#cosmos-3-omnimodal-world-models-for-physical-aiCosmos 3：面向物理AI的全模态世界模型模型集合 (https://huggingface.co/collections/nvidia/cosmos3)|代码 (https://github.com/nvidia/cosmos)|白皮书 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf)|网站 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/) NVIDIA CosmosTM (https://github.com/nvidia/cosmos) 是一个世界基础模型平台，旨在通过让机器理解、模拟和交互物理世界，加速机器人、自动驾驶以及包括工业和工厂级应用在内的智能空间环境中的物理AI开发。 ## https://huggingface.co/nvidia/Cosmos3-Nano#model-overview-cosmos3-nano模型概述：Cosmos3-Nano ## https://huggingface.co/nvidia/Cosmos3-Nano#description描述 Cosmos3 是一套全模态世界模型，能够根据文本、图像、视频和动作轨迹的组合输入，生成动态、高质量的视频、图像、音频和动作指令。它作为广泛物理AI应用和研究（涵盖世界理解、世界生成、仿真和具身策略学习）的基础构件。该模型可用于商业和非商业用途。模型开发者：NVIDIA ### https://huggingface.co/nvidia/Cosmos3-Nano#model-versions模型版本 - Cosmos3-Nano： - 给定包括文本、图像、视频、音频和动作轨迹的多模态输入，生成连贯的文本、图像、视频、音频和动作输出，用于多模态理解、世界仿真、未来预测、动作推理和物理AI应用。 - Cosmos3-Super： - 给定包括文本、图像、视频、音频和动作轨迹的多模态输入，生成连贯的文本、图像、视频、音频和动作输出，用于多模态理解、世界仿真、未来预测、动作推理和物理AI应用。 - Cosmos3-Nano-Policy-DROID： - 给定来自DROID机器人平台的语言指令和视觉观察，生成用于操控和控制任务的机器人动作轨迹。 - Cosmos3-Super-Image2Video： - 给定一张输入图像和文本指令，生成与所提供视觉内容一致的时间上连贯的视频序列。 - Cosmos3-Super-Text2Image： - 给定文本输入，生成与所提供描述一致的高保真图像。 ### https://huggingface.co/nvidia/Cosmos3-Nano#license许可证本模型根据 OpenMDW 1.1 (https://openmdw.ai/license/1-1/) 发布 ### https://huggingface.co/nvidia/Cosmos3-Nano#deployment-geography部署地域全球 ### https://huggingface.co/nvidia/Cosmos3-Nano#use-case使用案例物理AI：涵盖机器人、自动驾驶车辆（AV）以及包括工业和工厂级应用在内的智能空间环境。 ### https://huggingface.co/nvidia/Cosmos3-Nano#release-date发布日期 Hugging Face：2026年5月31日，通过 https://huggingface.co/collections/nvidia/cosmos3 GitHub：2026年5月31日，通过 https://github.com/nvidia/cosmos ## https://huggingface.co/nvidia/Cosmos3-Nano#model-architecture模型架构架构类型：Transformer 网络架构：混合专家Transformer（MoT） Cosmos3 是一个基于混合专家Transformer（MoT）架构构建的全模态基础模型，该架构由两个互补的Transformer塔组成：用于离散token生成的自回归Transformer和用于连续多模态生成的扩散Transformer。在推理时，文本通过标准的下一token自回归解码生成，而图像、视频、音频和动作等非文本模态则通过迭代去噪合成。这种统一架构使Cosmos3能够在单一框架内对异质模态进行建模，同时保留最适合每种模态的生成机制。本模型基于以下框架开发：Cosmos Framework (https://github.com/nvidia/cosmos-framework) 可训练模型参数数量： - Cosmos3-Nano：16B - Cosmos3-Super：64B - Cosmos3-Nano-Policy-DROID：16B - Cosmos3-Super-Image2Video：64B - Cosmos3-Super-Text2Image：64B ## https://huggingface.co/nvidia/Cosmos3-Nano#inputoutput-specifications输入/输出规范 - 生成器输入- 输入类型：文本、图像、视频（含音频或不含音频）、动作轨迹 - 输入格式：- 文本：字符串 - 图像：jpg、png、jpeg、webp - 视频（含或不含音频）：mp4 - 动作：json（1D列表） - 输入参数：- 文本：一维（1D） - 图像：二维（2D） - 视频：三维（3D） - 音频：一维（1D） - 动作轨迹：一维（1D） - 与输入相关的其他属性：- 对于视频输入，我们接受多种分辨率，包括720p、480p和256p。 - 当使用音频混入视频MP4文件的输入视频时，音频应具有2个通道（立体声）和48kHz采样率。 - 图像和视频输入为RGB色彩（每通道8位，sRGB色彩空间）；不支持灰度输入。 - 动作输入是每帧的机器人/代理状态或控制值序列（例如，关节位置、夹爪状态、相机位姿）。完整输入是一个形状为(T, D)的二维数组，其中T是帧数，D是下面列出的特定于具身化的维度。 - 仅支持兼容具身化的输入动作，包括通用相机运动（9D）、自动驾驶车辆（9D）、自我中心运动（57D）、带RobotiQ夹爪的单Franka Panda臂（10D）、带RobotiQ夹爪的双Franka Panda臂（20D）、Agibot（29D）、UR（10D）、Google机器人（10D）、WidowX 250（10D）、UMI（9D）。 - 输入大小和长度限制：- 文本：4096个token - 图像：256p、480p和720p分辨率，宽高比为以下之一（16:9、4:3、1:1、3:4、9:16） - 视频：256p、480p和720p分辨率，宽高比为以下之一（16:9、4:3、1:1、3:4、9:16）。最大帧数 = 5。 - 音频：最长0.5秒 - 动作：16 – 400个视频帧 - 生成器输出- 输出类型：图像、视频、音频、动作、文本 - 输出格式：- 图像：JPG - 视频：MP4 - 音频：高级音频编码（AAC）流（混入MP4中） - 动作：1D列表（.json） - 文本：字符串 - 输出参数：- 图像：二维（2D） - 视频：三维（3D） - 音频：一维（1D） - 动作：一维（1D） - 文本：一维（1D） - 与输出相关的其他属性：- 生成的视频是一个MP4文件，分辨率、帧率和时长在输入中指定。生成的音频采用AAC格式编码，混入视频MP4文件中，具有2个通道（立体声）和48kHz采样率。 - 视频生成支持5到400帧的时长，默认生成长度为189帧。 - 仅支持兼容具身化的生成动作，包括通用相机运动（9D）、自动驾驶车辆（9D）、自我中心运动（57D）、带RobotiQ夹爪的单Franka Panda臂（10D）、带RobotiQ夹爪的双Franka Panda臂（20D）、Agibot（29D）、UR（10D）、Google机器人（10D）、WidowX 250（10D）、UMI（9D）。 - 音频：48kHz立体声AAC流，混入视频mp4中 - 视频：以输入中指定的FPS的mp4格式 - 图像：JPEG - 推理器输入- 输入类型：文本、文本+图像、文本+视频 - 输入格式：- 文本：字符串 - 图像：jpg、png、jpeg、webp - 视频：mp4 - 输入参数：- 文本：一维（1D） - 图像：二维（2D） - 视频：三维（3D） - 与输入相关的其他属性：- 建议视频输入帧率为4 fps。 - 长上下文输入支持高达256K个token。 - 输入大小和长度限制：- 文本：最多256K个token（上下文窗口）。 - 图像：标准输入图像格式；作为文件或URL传递。 - 视频：mp4格式，推荐4 fps。 - 推理器输出- 输出类型：文本 - 输出格式：- 文本：字符串 - 输出参数：- 文本：一维（1D） - 与输出相关的其他属性：- 默认建议推理输出使用`max_tokens=4096+`；可请求更长的输出。 - 推理输出可能包括结构化思维链、2D/3D点位定位以及基于视觉任务的边界框坐标。视频内容将输入的文本描述可视化为一个简短的动画场景，在指定的时间限制内捕捉关键元素。我们的AI模型旨在和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件（例如GPU核心）和软件框架（例如CUDA库），该模型相比纯CPU方案实现了更快的训练和推理时间。 ## https://huggingface.co/nvidia/Cosmos3-Nano#software-integration软件集成运行时引擎： - PyTorch (https://github.com/nvidia/cosmos3) - vLLM-Omni (https://github.com/vllm-project/vllm-omni) - Hugging Face Diffusers (https://huggingface.co/docs/diffusers/en/index) 支持的硬件微架构兼容性： - NVIDIA Ampere - NVIDIA Blackwell - NVIDIA Hopper 操作系统： - Linux 注意：仅测试了BF16精度。其他精度如FP4、FP8和FP16未得到官方支持。将基础和微调模型集成到AI系统中需要额外使用特定用例的数据进行测试，以确保安全有效的部署。遵循V模型方法论，在单元和系统层面的迭代测试和验证对于降低风险、满足技术和功能要求，以及在部署前确保符合安全和伦理标准至关重要。 ## https://huggingface.co/nvidia/Cosmos3-Nano#training-testing-and-evaluation-datasets训练、测试和评估数据集 ### https://huggingface.co/nvidia/Cosmos3-Nano#dataset-overview数据集概述 - 总大小：13亿个数据点 - 总数据集数量：393个数据集条目 - 数据集划分：训练 [100%]，测试 [不适用 — 评估基准另行使用]，验证 [不适用 — 评估基准另行使用] - 训练数据收集时间段：2024–2026 - 测试数据收集时间段：不适用（标准公共基准） - 验证数据收集时间段：不适用（标准公共基准）来自内部和外部来源的原始数据通过多阶段的策划、过滤和质量审查转换为训练就绪数据。数据采集涵盖多样化的多模态来源——机器人、自动驾驶、工业环境、室内外场景、多样的光照和天气条件、相机视角、物体类别和人类活动——以拓宽物理AI运行环境的覆盖范围。自动化过滤管道会移除损坏、重复、低质量和受限的内容。在预处理过程中应用元数据分析、启发式规则和模型辅助分类器，以标记异常分布和低多样性子集。对于选定的数据集、基准构建和针对性质量分析，人工审查辅助自动化过滤。数据集在模态和任务类别之间进行平衡——视觉推理、文本到图像、文本到视频、图像到视频、音频生成、视频传输、动作条件生成和动作命令生成——以减少狭窄领域的过度表示。合成和基于仿真的增强补充了对稀有物理交互和边缘场景的覆盖。对全量语料应用去重和溯源追踪。在处理后的数据被转换为模型就绪的token化或编码表示之前，通过模态特定的预处理器转换，然后开始训练。训练数据集通过了多层自动和手动保护措施，旨在减少有害或违反政策内容的存在，涵盖类别包括武器和与武器相关的教学内容、犯罪计划、儿童性虐待材料（CSAM）、未经同意的亲密图像（NCII）、涉及未成年人的性内容、骚扰、仇恨言论、脏话、威胁和煽动暴力、自残或自杀相关内容以及极端暴力。在纳入训练语料库之前，会审查数据源的许可兼容性、来源以及与内部数据治理和安全政策的一致性。自动化过滤管道结合了多种检测策略：针对已知CSAM和NCII参考数据库的哈希匹配；训练用于明确性内容、仇恨言论、暴力、武器图像和其他受限类别的基于分类器的审核模型；文本数据中犯罪计划、威胁和自残短语的关键词和正则表达式筛选；用于源级风险信号的元数据和来源启发式规则；以及基于嵌入的异常检测，以发现超出预期分布的样本。对于选定的数据集、基准构建和安全敏感评估，人工审查和针对性审计辅助自动化过滤。对于多模态物理AI数据（机器人、自动驾驶、工业场景），额外过滤针对无效动作轨迹、物理上不可信的交互和不安全的控制序列。合成和仿真生成的数据在纳入前通过内部验证进行评估。训练后进行基准评估和红队测试，以揭示世界生成、推理、音频和动作任务中遗留的安全差距。没有大规模数据过滤过程能保证完全移除所有有害内容；残余风险可能存在，尤其是在稀有边缘情况或开放世界部署环境中。发布后持续进行监控和数据集审查。数据模态和训练数据大小模态 | 推理数据样本数 | 生成数据样本数

— | — | — 文本 | 22M | 不适用图像 | 19M | 767M 视频 | 1M | 348M 音频 | 不适用 | 139M 动作 | 不适用 | 8M 按数据集的数据收集方法 - 混合：自动/传感器、合成、自动化 按数据集的标注方法 - 混合：人工、自动化 **属性：**训练、测试和评估数据集包括来自NVIDIA自有数据和公开可用、商业许可数据集的多样化多模态视频、图像、音频、动作、合成和传感器条件数据。这些数据集经过策划以排除已知的受限内容，并支持构建一个全模态模型，学习生成和推理动态物理环境，涵盖世界推理和生成任务。 ### https://huggingface.co/nvidia/Cosmos3-Nano#public-datasets公共数据集数据集 | 样本数 — | — OpenImage | 1.2M Coyo | 700M 100M YouTube 视频 | 340M UMI | 4.5M ### https://huggingface.co/nvidia/Cosmos3-Nano#private-datasets私有数据集数据集 | 样本数 — | — Egocentric | 7M Nexar | 0.6M AgiBot | 0.2M HOI | 0.3M ### https://huggingface.co/nvidia/Cosmos3-Nano#synthetic-datasets合成数据集数据集 | 样本数 — | — 使用 HiDream-I 生成的合成图像 | 115M 使用 Qwen-Image-25 生成的合成图像 | 1214M 使用 Qwen3-VL 生成的合成字幕 | 1115M ## https://huggingface.co/nvidia/Cosmos3-Nano#evaluation-datasets评估数据集 按数据集的数据收集方法 - 混合：自动/传感器、合成、自动化 按数据集的标注方法 - 混合：人工、自动化 **属性：**训练、测试和评估数据集包括来自

nvidia/Cosmos3-Nano

相似文章

nvidia/Cosmos3-Super

Nvidia Cosmos 3

nvidia/Cosmos3-Super-Image2Video

Cosmos 3: 用于物理AI的全模态世界模型

NVIDIA/cosmos

提交意见反馈