nvidia/Cosmos3-Super-Image2Video

Hugging Face Models Trending 2026/05/21 19:21 模型

nvidia cosmos3 image-to-video world-model physical-ai video-generation multimodal

摘要

NVIDIA 发布 Cosmos3-Super-Image2Video，该模型能够根据输入图像和文本指令生成时间上连贯的视频序列，是面向物理 AI 应用的 Cosmos 3 全模态世界模型平台的一部分。

任务：图像到视频 Tags: cosmos, diffusers, safetensors, cosmos3_omni, nvidia, cosmos3, vllm-omni, image-to-video, video-generation, license:other, region:us

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:40

nvidia/Cosmos3-Super-Image2Video · Hugging Face 源: https://huggingface.co/nvidia/Cosmos3-Super-Image2Video ## https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#cosmos-3-omnimodal-world-models-for-physical-aiCosmos 3: 面向物理AI的全模态世界模型模型集合 (https://huggingface.co/collections/nvidia/cosmos3) | 代码 (https://github.com/nvidia/cosmos) | 白皮书 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf) | 网站 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/) NVIDIA CosmosTM (https://github.com/nvidia/cosmos) 是一个世界基础模型平台，旨在加速物理AI的发展，使机器能够理解、模拟和交互物理世界，涵盖机器人、自动驾驶和智能空间环境（包括工业和工厂级应用）。 ## https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#model-overview-cosmos3-super-image2video模型概述: Cosmos3-Super-Image2Video ## https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#description描述 Cosmos3 是一套全模态世界模型集合，能够从文本、图像、视频和动作轨迹的任意组合中生成动态、高质量的视频、图像、音频和动作指令。它作为广泛物理AI应用和研究的 foundational building block，涵盖世界理解、世界生成、仿真和具身策略学习。此模型已准备好用于商业和非商业用途。模型开发者: NVIDIA ### https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#model-versions模型版本 - Cosmos3-Nano: - 给定包含文本、图像、视频、音频和动作轨迹的多模态输入，生成连贯的文本、图像、视频、音频和动作输出，用于多模态理解、世界模拟、未来预测、动作推理和物理AI应用。 - Cosmos3-Super: - 给定包含文本、图像、视频、音频和动作轨迹的多模态输入，生成连贯的文本、图像、视频、音频和动作输出，用于多模态理解、世界模拟、未来预测、动作推理和物理AI应用。 - Cosmos3-Nano-Policy-DROID: - 给定来自 DROID 机器人平台的语言指令和视觉观察，生成用于操作和控制任务的机器人动作轨迹。 - Cosmos3-Super-Image2Video: - 给定一张输入图像和文本指令，生成与提供的视觉内容一致的时间连贯视频序列。 - Cosmos3-Super-Text2Image: - 给定文本输入，生成与描述一致的高保真图像。 ### https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#license许可证此模型根据 OpenMDW1.1 (https://openmdw.ai/license/1-1/) 发布 ### https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#deployment-geography部署地域全球 ### https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#use-case用例物理AI: 包括机器人、自动驾驶汽车（AV）和智能空间环境（含工业和工厂级应用）。 ### https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#release-date发布日期 Hugging Face: 2026年5月31日，通过 https://huggingface.co/collections/nvidia/cosmos3 GitHub: 2026年5月31日，通过 https://github.com/nvidia/cosmos ## https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#model-architecture模型架构架构类型: Transformer 网络架构: 混合专家变换器 (Mixture-of-Transformers, MoT) Cosmos3 是一个全模态基础模型，构建于混合专家变换器（MoT）架构之上，包含两个互补的 Transformer 塔：一个用于离散 token 生成的自回归 Transformer，和一个用于连续多模态生成的扩散 Transformer。在推理时，文本通过标准的下一 token 自回归解码生成，而图像、视频、音频和动作等非文本模态则通过迭代去噪合成。这种统一架构使 Cosmos3 能够在一个框架内建模异构模态，同时保留最适合每种模态的生成机制。此模型基于以下框架开发: Cosmos Framework (https://github.com/nvidia/cosmos-framework) 可训练模型参数数量: - Cosmos3-Nano: 16B - Cosmos3-Super: 64B - Cosmos3-Nano-Policy-DROID: 16B - Cosmos3-Super-Image2Video: 64B - Cosmos3-Super-Text2Image: 64B ## https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#inputoutput-specifications输入/输出规格 - 生成器输入 - 输入类型: 文本、图像、视频（可含音频或不含音频）、动作轨迹 - 输入格式: - 文本: 字符串 - 图像: jpg, png, jpeg, webp - 视频（含或不含音频）: mp4 - 动作: json（1D 列表） - 输入参数: - 文本: 一维 (1D) - 图像: 二维 (2D) - 视频: 三维 (3D) - 音频: 一维 (1D) - 动作轨迹: 一维 (1D) - 输入的其他属性: - 对于视频输入，我们接受多种分辨率，包括 720p, 480p 和 256p。 - 当使用含音频复用的视频 MP4 文件作为输入时，音频应为 2 声道（立体声），采样率 48 kHz。 - 图像和视频输入为 RGB 色彩（每通道 8 位，sRGB 色彩空间）；不支持灰度输入。 - 动作输入是每帧的机器人/智能体状态或控制值序列（例如关节位置、夹爪状态、相机位姿）。完整输入是一个形状为 (T, D) 的二维数组，其中 T 是帧数，D 是下面列出的具身特定维度。 - 输入动作仅支持兼容的具身类型，包括通用相机运动 (9D)、自动驾驶 (9D)、第一人称运动 (57D)、单 Franka Panda 臂 + RobotiQ 夹爪 (10D)、双 Franka Panda 臂 + RobotiQ 夹爪 (20D)、Agibot (29D)、UR (10D)、Google 机器人 (10D)、WidowX 250 (10D)、UMI (9D)。 - 输入大小和长度限制: - 文本: 4096 tokens - 图像: 256p, 480p, 720p 分辨率，支持以下宽高比之一 (16:9, 4:3, 1:1, 3:4, 9:16) - 视频: 256p, 480p, 720p 分辨率，支持以下宽高比之一 (16:9, 4:3, 1:1, 3:4, 9:16)。最大帧数 = 5。 - 音频: 最长 0.5 秒 - 动作: 16 – 400 视频帧 - 生成器输出 - 输出类型: 图像、视频、音频、动作、文本 - 输出格式: - 图像: JPG - 视频: MP4 - 音频: 高级音频编码 (AAC) 流（复用在 MP4 内） - 动作: 1D 列表 (.json) - 文本: 字符串 - 输出参数: - 图像: 二维 (2D) - 视频: 三维 (3D) - 音频: 一维 (1D) - 动作: 一维 (1D) - 文本: 一维 (1D) - 输出的其他属性: - 生成的视频是 MP4 文件，分辨率、帧率和时长由输入指定。生成的音频以 AAC 格式编码，复用在视频 MP4 文件中，2 声道（立体声）和 48 kHz 采样率。 - 视频生成支持 5 到 400 帧的时长，默认生成时长为 189 帧。 - 生成的动作仅支持兼容的具身类型，包括通用相机运动 (9D)、自动驾驶 (9D)、第一人称运动 (57D)、单 Franka Panda 臂 + RobotiQ 夹爪 (10D)、双 Franka Panda 臂 + RobotiQ 夹爪 (20D)、Agibot (29D)、UR (10D)、Google 机器人 (10D)、WidowX 250 (10D)、UMI (9D)。 - 音频: 48 kHz 立体声 AAC 流，复用在视频 mp4 中 - 视频: mp4，帧率如输入指定 - 图像: JPEG - 推理器输入 - 输入类型: 文本、文本+图像、文本+视频 - 输入格式: - 文本: 字符串 - 图像: jpg, png, jpeg, webp - 视频: mp4 - 输入参数: - 文本: 一维 (1D) - 图像: 二维 (2D) - 视频: 三维 (3D) - 输入的其他属性: - 视频输入建议帧率为 4 fps。 - 支持最长 256K tokens 的长上下文输入。 - 输入大小和长度限制: - 文本: 最多 256K tokens（上下文窗口）。 - 图像: 标准输入图像格式；作为文件或 URL 传递。 - 视频: mp4，建议帧率 4 fps。 - 推理器输出 - 输出类型: 文本 - 输出格式: - 文本: 字符串 - 输出参数: - 文本: 一维 (1D) - 输出的其他属性: - 对于推理输出，建议使用默认 `max_tokens=4096+`；可请求更长的输出。 - 推理输出可能包含结构化思维链、2D/3D 点定位和基于视觉任务的边界框坐标。视频内容将输入的文本描述可视化为一个简短的动画场景，在指定的时间限制内捕捉关键元素。我们的 AI 模型设计并/或优化为在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件（如 GPU 核心）和软件框架（如 CUDA 库），与纯 CPU 方案相比，该模型实现了更快的训练和推理时间。 ## https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#software-integration软件集成运行时引擎: - PyTorch (https://github.com/nvidia/cosmos3) - vLLM-Omni (https://github.com/vllm-project/vllm-omni) - Hugging Face Diffusers (https://huggingface.co/docs/diffusers/en/index) 支持的硬件微架构兼容性: - NVIDIA Ampere - NVIDIA Blackwell - NVIDIA Hopper 操作系统: - Linux（我们未在其他操作系统上测试。）注意: 仅测试了 BF16 精度。其他精度如 FP4、FP8 和 FP16 未正式支持。将基础模型和微调模型集成到 AI 系统中需要额外的测试，使用特定用例数据以确保安全和有效部署。遵循 V 模型方法，在单元和系统级别进行迭代测试和验证对于降低风险、满足技术和功能要求以及在部署前确保符合安全和道德标准至关重要。 ## https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#training-testing-and-evaluation-datasets训练、测试与评估数据集 ### https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#dataset-overview数据集概述 - 总大小: 13 亿个数据点 - 总数据集数量: 393 个数据集条目 - 数据集划分: 训练 [100%]，测试 [不适用 — 评估基准单独使用]，验证 [不适用 — 评估基准单独使用] - 训练数据收集时间段: 2024–2026 - 测试数据收集时间段: 不适用（标准公开基准） - 验证数据收集时间段: 不适用（标准公开基准）来自内部和外部源的原始数据通过多阶段的整理、筛选和质量审查转换为训练就绪数据。数据采集涵盖多种多模态源 — 机器人、自动驾驶、工业环境、室内和室外场景、各种光照和天气条件、相机视角、对象类别和人类活动 — 以扩大物理 AI 操作环境的覆盖范围。自动筛选流程移除损坏、重复、低质量和受限内容。在预处理过程中应用元数据分析、启发式规则和模型辅助分类器来标记异常分布和低多样性子集。对于选定数据集、基准构建和针对性质量分析，人工审查作为自动筛选的补充。数据集在模态和任务类别之间进行平衡 — 视觉推理、文生图、文生视频、图生视频、音频生成、视频转换、动作条件生成和动作指令生成 — 以减少对狭窄领域的过度代表。基于合成和仿真的增强补充了对罕见物理交互和边缘案例的覆盖。在整个语料库中应用去重和溯源追踪。处理后的数据通过模态特定预处理器转换为模型就绪的 token 化或编码表示，然后开始训练。训练数据集经过多层自动和人工安全措施，旨在减少各类有害或违反政策的内容，包括武器及武器相关指导内容、犯罪计划、儿童性虐待材料 (CSAM)、非自愿亲密图像 (NCII)、涉及未成年人的性内容、骚扰、仇恨言论、亵渎、威胁和煽动暴力、自残或自杀相关内容以及图形暴力。数据源在接受进入训练语料库之前，会审查其许可兼容性、溯源以及与内部数据治理和安全政策的一致性。自动筛选流程结合多种检测策略：与已知 CSAM 和 NCII 参考数据库的哈希匹配；针对明确性内容、仇恨言论、暴力、武器图像及其他受限类别训练的分类器审核模型；文本数据中用于犯罪计划、威胁和自残短语的关键词和正则表达式筛选；用于源级风险信号的元数据和溯源启发式方法；以及基于嵌入的异常检测以发现偏离预期分布的样本。对于选定数据集、基准构建和安全敏感评估，人工审查和针对性审核作为自动筛选的补充。对于多模态物理 AI 数据（机器人、自动驾驶、工业场景），额外的筛选针对无效动作轨迹、物理上不可能的交互以及不安全的控制序列。合成和仿真生成的数据在纳入前通过内部验证进行评估。训练后应用基准评估和红队测试，以发现世界生成、推理、音频和动作任务中剩余的安全漏洞。没有大规模数据筛选过程能够保证完全移除所有有害内容；残余风险可能存在，特别是在罕见边缘案例或开放世界部署场景中。发布后持续进行监控和数据集审查。数据模态和训练数据大小模态 | 推理数据样本数 | 生成数据样本数 — | — | — 文本 | 2200 万 | 不适用图像 | 1900 万 | 7.67 亿视频 | 100 万 | 3.48 亿音频 | 不适用 | 1.39 亿动作 | 不适用 | 800 万按数据集的数据采集方法 - 混合: 自动/传感器、合成、自动按数据集的标注方法 - 混合: 人工、自动属性: 训练、测试和评估数据集包含多样化的多模态视频、图像、音频、动作、合成和传感器条件数据，这些数据源自 NVIDIA 自有数据以及公开可用、商业许可的数据集。这些数据集经过整理以排除已知的受限内容，并支持构建一个能够学习和推理动态物理环境的全模态模型，涵盖世界推理和世界生成任务。 ### https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#public-datasets公开数据集数据集 | 样本数 — | — OpenImage | 120 万 COYO | 7 亿 1 亿 YouTube 视频 | 3.4 亿 UMI | 450 万 ### https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#private-datasets私有数据集数据集 | 样本数 — | — 第一人称 | 700 万 Nexar | 60 万 AgiBot | 20 万 HOI | 30 万 ### https://huggingface.co/nvidia/Cosmos3-Super-Image2Video#synthetic-datasets合成数据集数据集 | 样本数 — | — 使用 HiDream-I 生成的合成图像 | 1.15 亿使用 Qwen-Image-2512 生成的合成图像 | 1400 万使用 Qwen3 生成的合成字幕 |

相似文章

nvidia/Cosmos3-Super

Hugging Face Models Trending

NVIDIA 发布了 Cosmos3，这是一套用于物理AI的全模态世界基础模型，能够从多种输入生成视频、图像、音频和动作指令，并提供针对不同任务（如策略学习和图像到视频生成）的版本。

nvidia/Cosmos3-Super-Text2Image

Hugging Face Models Trending

NVIDIA 发布了 Cosmos3-Super-Text2Image，这是一个文生图模型，属于 Cosmos3 全模态世界模型平台的一部分，用于物理 AI，使机器能够理解和模拟物理世界。

nvidia/Cosmos3-Edge

Hugging Face Models Trending

NVIDIA 发布了 Cosmos3-Edge，这是一个全模态世界基础模型，能够从文本、图像、视频和动作轨迹输入生成视频、图像、音频和动作命令，面向机器人、自动驾驶和智能空间等物理 AI 应用。

nvidia/Cosmos3-Nano

Hugging Face Models Trending

NVIDIA 发布 Cosmos3-Nano，一个用于物理 AI 的全能世界模型，能够从文本、图像、视频和动作输入生成视频、图像、音频和动作指令，面向机器人、自动驾驶和智能空间应用。

Cosmos 3: 用于物理AI的全模态世界模型

Hugging Face Daily Papers

Cosmos 3是NVIDIA推出的一系列全模态世界模型，采用统一的混合Transformer架构联合处理语言、图像、视频、音频和动作序列，在物理AI的理解和生成任务上达到了最先进水平。

相似文章

nvidia/Cosmos3-Super

nvidia/Cosmos3-Super-Text2Image

nvidia/Cosmos3-Edge

nvidia/Cosmos3-Nano

Cosmos 3: 用于物理AI的全模态世界模型

提交意见反馈