nvidia/Cosmos3-Nano

Hugging Face Models Trending 模型

摘要

NVIDIA 发布 Cosmos3-Nano,一个用于物理 AI 的全能世界模型,能够从文本、图像、视频和动作输入生成视频、图像、音频和动作指令,面向机器人、自动驾驶和智能空间应用。

标签:cosmos, diffusers, safetensors, cosmos3_omni, nvidia, cosmos3, vllm, vllm-omni, 文本、图像、视频、音频和动作生成, 全能模型, 许可证:其他, 地区:美国
查看原文
查看缓存全文

缓存时间: 2026/06/02 02:25

nvidia/Cosmos3-Nano · Hugging Face 来源:https://huggingface.co/nvidia/Cosmos3-Nano ## https://huggingface.co/nvidia/Cosmos3-Nano#cosmos-3-omnimodal-world-models-for-physical-aiCosmos 3:面向物理AI的全模态世界模型 模型集合 (https://huggingface.co/collections/nvidia/cosmos3)|代码 (https://github.com/nvidia/cosmos)|白皮书 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf)|网站 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/) NVIDIA CosmosTM (https://github.com/nvidia/cosmos) 是一个世界基础模型平台,旨在通过让机器理解、模拟和交互物理世界,加速机器人、自动驾驶以及包括工业和工厂级应用在内的智能空间环境中的物理AI开发。 ## https://huggingface.co/nvidia/Cosmos3-Nano#model-overview-cosmos3-nano模型概述:Cosmos3-Nano ## https://huggingface.co/nvidia/Cosmos3-Nano#description描述 Cosmos3 是一套全模态世界模型,能够根据文本、图像、视频和动作轨迹的组合输入,生成动态、高质量的视频、图像、音频和动作指令。它作为广泛物理AI应用和研究(涵盖世界理解、世界生成、仿真和具身策略学习)的基础构件。该模型可用于商业和非商业用途。 **模型开发者:**NVIDIA ### https://huggingface.co/nvidia/Cosmos3-Nano#model-versions模型版本 - Cosmos3-Nano: - 给定包括文本、图像、视频、音频和动作轨迹的多模态输入,生成连贯的文本、图像、视频、音频和动作输出,用于多模态理解、世界仿真、未来预测、动作推理和物理AI应用。 - Cosmos3-Super: - 给定包括文本、图像、视频、音频和动作轨迹的多模态输入,生成连贯的文本、图像、视频、音频和动作输出,用于多模态理解、世界仿真、未来预测、动作推理和物理AI应用。 - Cosmos3-Nano-Policy-DROID: - 给定来自DROID机器人平台的语言指令和视觉观察,生成用于操控和控制任务的机器人动作轨迹。 - Cosmos3-Super-Image2Video: - 给定一张输入图像和文本指令,生成与所提供视觉内容一致的时间上连贯的视频序列。 - Cosmos3-Super-Text2Image: - 给定文本输入,生成与所提供描述一致的高保真图像。 ### https://huggingface.co/nvidia/Cosmos3-Nano#license许可证 本模型根据 OpenMDW 1.1 (https://openmdw.ai/license/1-1/) 发布 ### https://huggingface.co/nvidia/Cosmos3-Nano#deployment-geography部署地域 全球 ### https://huggingface.co/nvidia/Cosmos3-Nano#use-case使用案例 物理AI:涵盖机器人、自动驾驶车辆(AV)以及包括工业和工厂级应用在内的智能空间环境。 ### https://huggingface.co/nvidia/Cosmos3-Nano#release-date发布日期 Hugging Face:2026年5月31日,通过 https://huggingface.co/collections/nvidia/cosmos3 GitHub:2026年5月31日,通过 https://github.com/nvidia/cosmos ## https://huggingface.co/nvidia/Cosmos3-Nano#model-architecture模型架构 **架构类型:**Transformer **网络架构:**混合专家Transformer(MoT) Cosmos3 是一个基于混合专家Transformer(MoT)架构构建的全模态基础模型,该架构由两个互补的Transformer塔组成:用于离散token生成的自回归Transformer和用于连续多模态生成的扩散Transformer。在推理时,文本通过标准的下一token自回归解码生成,而图像、视频、音频和动作等非文本模态则通过迭代去噪合成。这种统一架构使Cosmos3能够在单一框架内对异质模态进行建模,同时保留最适合每种模态的生成机制。 **本模型基于以下框架开发:**Cosmos Framework (https://github.com/nvidia/cosmos-framework) 可训练模型参数数量: - Cosmos3-Nano:16B - Cosmos3-Super:64B - Cosmos3-Nano-Policy-DROID:16B - Cosmos3-Super-Image2Video:64B - Cosmos3-Super-Text2Image:64B ## https://huggingface.co/nvidia/Cosmos3-Nano#inputoutput-specifications输入/输出规范 - 生成器输入- **输入类型:**文本、图像、视频(含音频或不含音频)、动作轨迹 - 输入格式:- 文本:字符串 - 图像:jpg、png、jpeg、webp - 视频(含或不含音频):mp4 - 动作:json(1D列表) - 输入参数:- 文本:一维(1D) - 图像:二维(2D) - 视频:三维(3D) - 音频:一维(1D) - 动作轨迹:一维(1D) - 与输入相关的其他属性:- 对于视频输入,我们接受多种分辨率,包括720p、480p和256p。 - 当使用音频混入视频MP4文件的输入视频时,音频应具有2个通道(立体声)和48kHz采样率。 - 图像和视频输入为RGB色彩(每通道8位,sRGB色彩空间);不支持灰度输入。 - 动作输入是每帧的机器人/代理状态或控制值序列(例如,关节位置、夹爪状态、相机位姿)。完整输入是一个形状为(T, D)的二维数组,其中T是帧数,D是下面列出的特定于具身化的维度。 - 仅支持兼容具身化的输入动作,包括通用相机运动(9D)、自动驾驶车辆(9D)、自我中心运动(57D)、带RobotiQ夹爪的单Franka Panda臂(10D)、带RobotiQ夹爪的双Franka Panda臂(20D)、Agibot(29D)、UR(10D)、Google机器人(10D)、WidowX 250(10D)、UMI(9D)。 - 输入大小和长度限制:- **文本:**4096个token - **图像:**256p、480p和720p分辨率,宽高比为以下之一(16:9、4:3、1:1、3:4、9:16) - **视频:**256p、480p和720p分辨率,宽高比为以下之一(16:9、4:3、1:1、3:4、9:16)。最大帧数 = 5。 - **音频:**最长0.5秒 - **动作:**16 – 400个视频帧 - 生成器输出- **输出类型:**图像、视频、音频、动作、文本 - 输出格式:- 图像:JPG - 视频:MP4 - 音频:高级音频编码(AAC)流(混入MP4中) - 动作:1D列表(.json) - 文本:字符串 - 输出参数:- 图像:二维(2D) - 视频:三维(3D) - 音频:一维(1D) - 动作:一维(1D) - 文本:一维(1D) - 与输出相关的其他属性:- 生成的视频是一个MP4文件,分辨率、帧率和时长在输入中指定。生成的音频采用AAC格式编码,混入视频MP4文件中,具有2个通道(立体声)和48kHz采样率。 - 视频生成支持5到400帧的时长,默认生成长度为189帧。 - 仅支持兼容具身化的生成动作,包括通用相机运动(9D)、自动驾驶车辆(9D)、自我中心运动(57D)、带RobotiQ夹爪的单Franka Panda臂(10D)、带RobotiQ夹爪的双Franka Panda臂(20D)、Agibot(29D)、UR(10D)、Google机器人(10D)、WidowX 250(10D)、UMI(9D)。 - 音频:48kHz立体声AAC流,混入视频mp4中 - 视频:以输入中指定的FPS的mp4格式 - 图像:JPEG - 推理器输入- **输入类型:**文本、文本+图像、文本+视频 - 输入格式:- 文本:字符串 - 图像:jpg、png、jpeg、webp - 视频:mp4 - 输入参数:- 文本:一维(1D) - 图像:二维(2D) - 视频:三维(3D) - 与输入相关的其他属性:- 建议视频输入帧率为4 fps。 - 长上下文输入支持高达256K个token。 - 输入大小和长度限制:- **文本:**最多256K个token(上下文窗口)。 - **图像:**标准输入图像格式;作为文件或URL传递。 - **视频:**mp4格式,推荐4 fps。 - 推理器输出- **输出类型:**文本 - 输出格式:- 文本:字符串 - 输出参数:- 文本:一维(1D) - 与输出相关的其他属性:- 默认建议推理输出使用max_tokens=4096+;可请求更长的输出。 - 推理输出可能包括结构化思维链、2D/3D点位定位以及基于视觉任务的边界框坐标。 视频内容将输入的文本描述可视化为一个简短的动画场景,在指定的时间限制内捕捉关键元素。 我们的AI模型旨在和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),该模型相比纯CPU方案实现了更快的训练和推理时间。 ## https://huggingface.co/nvidia/Cosmos3-Nano#software-integration软件集成 运行时引擎: - PyTorch (https://github.com/nvidia/cosmos3) - vLLM-Omni (https://github.com/vllm-project/vllm-omni) - Hugging Face Diffusers (https://huggingface.co/docs/diffusers/en/index) 支持的硬件微架构兼容性: - NVIDIA Ampere - NVIDIA Blackwell - NVIDIA Hopper 操作系统: - Linux **注意:**仅测试了BF16精度。其他精度如FP4、FP8和FP16未得到官方支持。 将基础和微调模型集成到AI系统中需要额外使用特定用例的数据进行测试,以确保安全有效的部署。遵循V模型方法论,在单元和系统层面的迭代测试和验证对于降低风险、满足技术和功能要求,以及在部署前确保符合安全和伦理标准至关重要。 ## https://huggingface.co/nvidia/Cosmos3-Nano#training-testing-and-evaluation-datasets训练、测试和评估数据集 ### https://huggingface.co/nvidia/Cosmos3-Nano#dataset-overview数据集概述 - **总大小:**13亿个数据点 - **总数据集数量:**393个数据集条目 - **数据集划分:**训练 [100%],测试 [不适用 — 评估基准另行使用],验证 [不适用 — 评估基准另行使用] - **训练数据收集时间段:**2024–2026 - **测试数据收集时间段:**不适用(标准公共基准) - **验证数据收集时间段:**不适用(标准公共基准) 来自内部和外部来源的原始数据通过多阶段的策划、过滤和质量审查转换为训练就绪数据。数据采集涵盖多样化的多模态来源——机器人、自动驾驶、工业环境、室内外场景、多样的光照和天气条件、相机视角、物体类别和人类活动——以拓宽物理AI运行环境的覆盖范围。自动化过滤管道会移除损坏、重复、低质量和受限的内容。在预处理过程中应用元数据分析、启发式规则和模型辅助分类器,以标记异常分布和低多样性子集。对于选定的数据集、基准构建和针对性质量分析,人工审查辅助自动化过滤。数据集在模态和任务类别之间进行平衡——视觉推理、文本到图像、文本到视频、图像到视频、音频生成、视频传输、动作条件生成和动作命令生成——以减少狭窄领域的过度表示。合成和基于仿真的增强补充了对稀有物理交互和边缘场景的覆盖。对全量语料应用去重和溯源追踪。在处理后的数据被转换为模型就绪的token化或编码表示之前,通过模态特定的预处理器转换,然后开始训练。 训练数据集通过了多层自动和手动保护措施,旨在减少有害或违反政策内容的存在,涵盖类别包括武器和与武器相关的教学内容、犯罪计划、儿童性虐待材料(CSAM)、未经同意的亲密图像(NCII)、涉及未成年人的性内容、骚扰、仇恨言论、脏话、威胁和煽动暴力、自残或自杀相关内容以及极端暴力。在纳入训练语料库之前,会审查数据源的许可兼容性、来源以及与内部数据治理和安全政策的一致性。自动化过滤管道结合了多种检测策略:针对已知CSAM和NCII参考数据库的哈希匹配;训练用于明确性内容、仇恨言论、暴力、武器图像和其他受限类别的基于分类器的审核模型;文本数据中犯罪计划、威胁和自残短语的关键词和正则表达式筛选;用于源级风险信号的元数据和来源启发式规则;以及基于嵌入的异常检测,以发现超出预期分布的样本。对于选定的数据集、基准构建和安全敏感评估,人工审查和针对性审计辅助自动化过滤。对于多模态物理AI数据(机器人、自动驾驶、工业场景),额外过滤针对无效动作轨迹、物理上不可信的交互和不安全的控制序列。合成和仿真生成的数据在纳入前通过内部验证进行评估。训练后进行基准评估和红队测试,以揭示世界生成、推理、音频和动作任务中遗留的安全差距。没有大规模数据过滤过程能保证完全移除所有有害内容;残余风险可能存在,尤其是在稀有边缘情况或开放世界部署环境中。发布后持续进行监控和数据集审查。 数据模态和训练数据大小 模态 | 推理数据样本数 | 生成数据样本数

— | — | — 文本 | 22M | 不适用 图像 | 19M | 767M 视频 | 1M | 348M 音频 | 不适用 | 139M 动作 | 不适用 | 8M 按数据集的数据收集方法 - 混合:自动/传感器、合成、自动化 按数据集的标注方法 - 混合:人工、自动化 **属性:**训练、测试和评估数据集包括来自NVIDIA自有数据和公开可用、商业许可数据集的多样化多模态视频、图像、音频、动作、合成和传感器条件数据。这些数据集经过策划以排除已知的受限内容,并支持构建一个全模态模型,学习生成和推理动态物理环境,涵盖世界推理和生成任务。 ### https://huggingface.co/nvidia/Cosmos3-Nano#public-datasets公共数据集 数据集 | 样本数 — | — OpenImage | 1.2M Coyo | 700M 100M YouTube 视频 | 340M UMI | 4.5M ### https://huggingface.co/nvidia/Cosmos3-Nano#private-datasets私有数据集 数据集 | 样本数 — | — Egocentric | 7M Nexar | 0.6M AgiBot | 0.2M HOI | 0.3M ### https://huggingface.co/nvidia/Cosmos3-Nano#synthetic-datasets合成数据集 数据集 | 样本数 — | — 使用 HiDream-I 生成的合成图像 | 115M 使用 Qwen-Image-25 生成的合成图像 | 1214M 使用 Qwen3-VL 生成的合成字幕 | 1115M ## https://huggingface.co/nvidia/Cosmos3-Nano#evaluation-datasets评估数据集 按数据集的数据收集方法 - 混合:自动/传感器、合成、自动化 按数据集的标注方法 - 混合:人工、自动化 **属性:**训练、测试和评估数据集包括来自

相似文章

nvidia/Cosmos3-Super

Hugging Face Models Trending

NVIDIA 发布了 Cosmos3,这是一套用于物理AI的全模态世界基础模型,能够从多种输入生成视频、图像、音频和动作指令,并提供针对不同任务(如策略学习和图像到视频生成)的版本。

Nvidia Cosmos 3

Hacker News Top

NVIDIA 开源了 Cosmos 3,这是一个物理AI的前沿基础模型,将推理、世界生成和动作生成统一在单一的 Mixture-of-Transformers 架构中,并发布了用于机器人、自动驾驶和仓库监控的模型检查点、数据集和训练脚本。

nvidia/Cosmos3-Super-Image2Video

Hugging Face Models Trending

NVIDIA 发布 Cosmos3-Super-Image2Video,该模型能够根据输入图像和文本指令生成时间上连贯的视频序列,是面向物理 AI 应用的 Cosmos 3 全模态世界模型平台的一部分。

Cosmos 3: 用于物理AI的全模态世界模型

Hugging Face Daily Papers

Cosmos 3是NVIDIA推出的一系列全模态世界模型,采用统一的混合Transformer架构联合处理语言、图像、视频、音频和动作序列,在物理AI的理解和生成任务上达到了最先进水平。

NVIDIA/cosmos

GitHub Trending (daily)

NVIDIA Cosmos 是一个开放平台,提供世界模型、数据集和工具,旨在帮助开发者为机器人、自动驾驶车辆和智能基础设施构建物理AI应用。