nvidia/Cosmos3-Super-Text2Image

Hugging Face Models Trending 2026/05/28 03:49 模型

nvidia cosmos3 text-to-image world-model physical-ai foundation-model hugging-face

摘要

NVIDIA 发布了 Cosmos3-Super-Text2Image，这是一个文生图模型，属于 Cosmos3 全模态世界模型平台的一部分，用于物理 AI，使机器能够理解和模拟物理世界。

任务：文生图标签：cosmos, diffusers, safetensors, cosmos3_omni, nvidia, cosmos3, vllm-omni, text-to-image, image-generation, license:other, region:us

查看原文

查看缓存全文

缓存时间: 2026/06/02 21:35

nvidia/Cosmos3-Super-Text2Image · Hugging Face 来源：https://huggingface.co/nvidia/Cosmos3-Super-Text2Image ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#cosmos-3-omnimodal-world-models-for-physical-aiCosmos 3：面向物理AI的全模态世界模型模型集合 (https://huggingface.co/collections/nvidia/cosmos3)|代码 (https://github.com/nvidia/cosmos)|白皮书 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf)|网站 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/) NVIDIA CosmosTM (https://github.com/nvidia/cosmos) 是一个世界基础模型平台，旨在加速物理AI的发展，使机器能够理解、模拟和与物理世界交互，涵盖机器人、自动驾驶、智能空间环境（包括工业和工厂规模的应用）。 ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#model-overview-cosmos3-super-text2image模型概述：Cosmos3-Super-Text2Image ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#description描述 Cosmos3 是一个全模态世界模型集合，能够根据文本、图像、视频和动作轨迹的组合，生成动态、高质量的视频、图像、音频和动作指令。它作为广泛物理AI应用和研究的基础构建模块，涵盖世界理解、世界生成、仿真和具身策略学习。该模型可用于商业和非商业用途。模型开发者：NVIDIA ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#model-versions模型版本 - Cosmos3-Nano： - 给定多模态输入（包括文本、图像、视频、音频和动作轨迹），生成连贯的文本、图像、视频、音频和动作输出，用于多模态理解、世界仿真、未来预测、动作推理和物理AI应用。 - Cosmos3-Super： - 给定多模态输入（包括文本、图像、视频、音频和动作轨迹），生成连贯的文本、图像、视频、音频和动作输出，用于多模态理解、世界仿真、未来预测、动作推理和物理AI应用。 - Cosmos3-Nano-Policy-DROID： - 给定来自DROID机器人平台的语言指令和视觉观察，生成用于操作和控制任务的机器人动作轨迹。 - Cosmos3-Super-Image2Video： - 给定一张输入图像和文本指令，生成与提供的视觉内容一致的时间连贯视频序列。 - Cosmos3-Super-Text2Image： - 给定文本输入，生成与描述一致的高保真图像。 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#license许可证该模型基于 OpenMDW1.1 (https://openmdw.ai/license/1-1/) 发布 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#deployment-geography部署地域全球 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#use-case用例物理AI：涵盖机器人、自动驾驶汽车（AV）和智能空间环境，包括工业和工厂规模的应用。 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#release-date发布日期 Hugging Face 2026年5月31日 via https://huggingface.co/collections/nvidia/cosmos3 GitHub 2026年5月31日 via https://github.com/nvidia/cosmos ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#model-architecture模型架构架构类型：Transformer 网络架构：Mixture-of-Transformers (MoT) Cosmos3 是一个全模态基础模型，基于 Mixture-of-Transformers (MoT) 架构构建，由两个互补的Transformer塔组成：一个用于离散token生成的自回归Transformer，以及一个用于连续多模态生成的扩散Transformer。在推理过程中，文本通过标准的下一token自回归解码生成，而图像、视频、音频和动作等非文本模态则通过迭代去噪合成。这种统一架构使Cosmos3能够在单一框架内建模异构模态，同时保留最适合每种模态的生成机制。该模型基于以下技术开发：Cosmos Framework (https://github.com/nvidia/cosmos-framework) 可训练模型参数数量： - Cosmos3-Nano：16B - Cosmos3-Super：64B - Cosmos3-Nano-Policy-DROID：16B - Cosmos3-Super-Image2Video：64B - Cosmos3-Super-Text2Image：64B ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#inputoutput-specifications输入/输出规格 - 生成器输入- 输入类型：文本、图像、视频（带或不带音频）、动作轨迹 - 输入格式：- 文本：字符串 - 图像：jpg、png、jpeg、webp - 视频（带或不带音频）：mp4 - 动作：json（1D列表） - 输入参数：- 文本：一维（1D） - 图像：二维（2D） - 视频：三维（3D） - 音频：一维（1D） - 动作轨迹：一维（1D） - 输入的其他属性：- 对于视频输入，我们接受多种分辨率，包括720p、480p和256p。 - 当使用将音频混入视频MP4文件的输入视频时，音频应为2声道（立体声）和48 kHz采样率。 - 图像和视频输入为RGB色彩（每通道8位，sRGB色彩空间）；不支持灰度输入。 - 动作输入是每帧机器人/智能体状态或控制值的序列（例如，关节位置、夹爪状态、相机姿态）。完整输入是一个形状为(T, D)的二维数组，其中T是帧数，D是下面列出的特定于具身形态的维度。 - 动作输入仅支持兼容的具身形态，包括通用相机运动（9D）、自动驾驶汽车（9D）、自我中心运动（57D）、单Franka Panda臂带RobotiQ夹爪（10D）、双Franka Panda臂带RobotiQ夹爪（20D）、Agibot（29D）、UR（10D）、Google机器人（10D）、WidowX 250（10D）、UMI（9D）。 - 输入大小和长度限制：- 文本：4096个token - 图像：256p、480p和720p分辨率，宽高比为以下之一：16:9、4:3、1:1、3:4、9:16 - 视频：256p、480p和720p分辨率，宽高比为以下之一：16:9、4:3、1:1、3:4、9:16。最大帧数 = 5。 - 音频：最大0.5秒 - 动作：16 – 400视频帧 - 生成器输出- 输出类型：图像、视频、音频、动作、文本 - 输出格式：- 图像：JPG - 视频：MP4 - 音频：高级音频编码（AAC）流（混入MP4中） - 动作：1D列表 (.json) - 文本：字符串 - 输出参数：- 图像：二维（2D） - 视频：三维（3D） - 音频：一维（1D） - 动作：一维（1D） - 文本：一维（1D） - 输出的其他属性：- 生成的视频是一个MP4文件，分辨率、帧率和时长由输入指定。生成的音频以AAC格式编码，混入视频MP4文件中，2声道（立体声），采样率48 kHz。 - 视频生成支持时长从5帧到400帧，默认生成时长为189帧。 - 生成的动作仅支持兼容的具身形态，包括通用相机运动（9D）、自动驾驶汽车（9D）、自我中心运动（57D）、单Franka Panda臂带RobotiQ夹爪（10D）、双Franka Panda臂带RobotiQ夹爪（20D）、Agibot（29D）、UR（10D）、Google机器人（10D）、WidowX 250（10D）、UMI（9D）。 - 音频：48 kHz立体声AAC流混入视频mp4 - 视频：以输入指定的FPS的mp4 - 图像：JPEG - 推理器输入- 输入类型：文本、文本+图像、文本+视频 - 输入格式：- 文本：字符串 - 图像：jpg、png、jpeg、webp - 视频：mp4 - 输入参数：- 文本：一维（1D） - 图像：二维（2D） - 视频：三维（3D） - 输入的其他属性：- 视频输入建议使用帧率4 fps。 - 支持最长256K token的长上下文输入。 - 输入大小和长度限制：- 文本：最多256K token（上下文窗口）。 - 图像：标准输入图像格式；以文件或URL形式传递。 - 视频：mp4，建议4 fps。 - 推理器输出- 输出类型：文本 - 输出格式：- 文本：字符串 - 输出参数：- 文本：一维（1D） - 输出的其他属性：- 对于推理输出，建议使用默认`max_tokens=4096+`；可请求更长的输出。 - 推理输出可能包括结构化思维链、2D/3D点定位和基于视觉任务的边界框坐标。视频内容将输入文本描述可视化为一个简短的动画场景，在指定的时间约束内捕捉关键元素。我们的AI模型设计并/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件（例如GPU核心）和软件框架（例如CUDA库），与仅使用CPU的方案相比，该模型实现了更快的训练和推理时间。 ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#software-integration软件集成运行时引擎： - PyTorch (https://github.com/nvidia/cosmos3) - vLLM-Omni (https://github.com/vllm-project/vllm-omni) - Hugging Face Diffusers (https://huggingface.co/docs/diffusers/en/index) 支持的硬件微架构兼容性： - NVIDIA Ampere - NVIDIA Blackwell - NVIDIA Hopper 操作系统： - Linux（我们尚未在其他操作系统上测试。）注意：仅测试了BF16精度。其他精度如FP4、FP8和FP16官方不支持。将基础模型和微调模型集成到AI系统中需要额外的测试，使用特定于用例的数据以确保安全有效的部署。遵循V模型方法论，在单元和系统层面进行迭代测试和验证对于降低风险、满足技术和功能要求，并在部署前确保符合安全和道德标准至关重要。 ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#training-testing-and-evaluation-datasets训练、测试和评估数据集 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#dataset-overview数据集概述 - 总大小：13亿数据点 - 数据集总数：393个数据集条目 - 数据集划分：训练[100%]，测试[不适用——评估基准单独使用]，验证[不适用——评估基准单独使用] - 训练数据收集时间范围：2024–2026 - 测试数据收集时间范围：不适用（标准公开基准） - 验证数据收集时间范围：不适用（标准公开基准）来自内部和外部来源的原始数据通过多个阶段的整理、过滤和质量审查转化为训练就绪数据。数据采集涉及多种多模态来源——机器人、自动驾驶、工业环境、室内和室外场景、不同的光照和天气条件、相机视角、物体类别和人类活动——以扩大物理AI运行环境的覆盖范围。自动过滤管道移除损坏、重复、低质量和受限制的内容。在预处理过程中应用元数据分析、启发式规则和模型辅助分类器来标记异常分布和低多样性子集。对于选定的数据集、基准构建和有针对性的质量分析，人工审查补充了自动过滤。数据集跨模态和任务类别进行平衡——视觉推理、文本到图像、文本到视频、图像到视频、音频生成、视频传输、动作条件生成和动作指令生成——以减少对狭窄领域的过度表示。合成和基于仿真的增强补充了稀有物理交互和边缘案例场景的覆盖。整个语料库应用了去重和溯源追踪。处理后的数据在训练开始前，通过特定模态的预处理器转换为模型就绪的token化或编码表示。训练数据集通过多层自动和人工保障措施，旨在减少有害或违反政策的内容，类别包括武器及武器相关教学内容、犯罪计划、儿童性虐待材料（CSAM）、非自愿亲密图像（NCII）、涉及未成年人的性内容、骚扰、仇恨言论、脏话、威胁和煽动暴力、自残或自杀相关内容以及严重暴力。数据源在纳入训练语料库之前，会审查其许可兼容性、溯源以及是否符合内部数据治理和安全政策。自动过滤管道结合了多种检测策略：针对已知CSAM和NCII参考数据库的哈希匹配；针对露骨性内容、仇恨言论、暴力、武器图像及其他限制类别的基于分类器的审核模型；针对文本数据中犯罪计划、威胁和自残短语的关键词和正则表达式筛查；针对源级风险信号的元数据和溯源启发式规则；以及基于嵌入的异常检测，以识别超出预期分布的样本。对于选定的数据集、基准构建和安全敏感性评估，人工审查和定向审计补充了自动过滤。对于多模态物理AI数据（机器人、自动驾驶、工业场景），额外过滤针对无效动作轨迹、物理上不合理的交互和不安全的控制序列。合成和仿真生成的数据在纳入前通过内部验证进行评估。训练后应用基准评估和红队测试，以发现世界生成、推理、音频和动作任务中剩余的安全差距。没有大规模数据过滤过程能够保证完全移除所有有害内容；残留风险可能存在，特别是在罕见的边缘情况或开放世界部署场景中。发布后持续进行监控和数据集审查。数据模态和训练数据大小模态推理数据样本计数生成数据样本计数文本22M不适用图像19M767M视频1M348M音频不适用139M动作不适用8M 按数据集的数据收集方法 - 混合：自动/传感器、合成、自动化按数据集的标注方法 - 混合：人工、自动化属性：训练、测试和评估数据集由多种多模态视频、图像、音频、动作、合成和传感器条件数据组成，这些数据来源于NVIDIA自有数据和公开可用、商业许可的数据集。这些数据集经过整理以排除已知的受限内容，并支持构建一个全模态模型，该模型学习在世界推理和生成任务中生成和推理动态物理环境。 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#public-datasets公开数据集数据集样本数OpenImage1.2M Coyo700M 100M YouTube视频340M UMI4.5M ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#private-datasets私有数据集数据集样本数自我中心7M Nexar0.6M AgiBot0.2M HOI0.3M ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#synthetic-datasets合成数据集数据集样本数使用HiDream-I生成的合成图像115M 使用Qwen-Image-25生成的合成图像1214M 使用Qwen3-VL生成的合成字幕1115M ## https://

相似文章

nvidia/Cosmos3-Super-Image2Video

Hugging Face Models Trending

NVIDIA 发布 Cosmos3-Super-Image2Video，该模型能够根据输入图像和文本指令生成时间上连贯的视频序列，是面向物理 AI 应用的 Cosmos 3 全模态世界模型平台的一部分。

nvidia/Cosmos3-Super

Hugging Face Models Trending

NVIDIA 发布了 Cosmos3，这是一套用于物理AI的全模态世界基础模型，能够从多种输入生成视频、图像、音频和动作指令，并提供针对不同任务（如策略学习和图像到视频生成）的版本。

nvidia/Cosmos3-Nano

Hugging Face Models Trending

NVIDIA 发布 Cosmos3-Nano，一个用于物理 AI 的全能世界模型，能够从文本、图像、视频和动作输入生成视频、图像、音频和动作指令，面向机器人、自动驾驶和智能空间应用。

Cosmos 3: 用于物理AI的全模态世界模型

Hugging Face Daily Papers

Cosmos 3是NVIDIA推出的一系列全模态世界模型，采用统一的混合Transformer架构联合处理语言、图像、视频、音频和动作序列，在物理AI的理解和生成任务上达到了最先进水平。

Nvidia Cosmos 3

Hacker News Top

NVIDIA 开源了 Cosmos 3，这是一个物理AI的前沿基础模型，将推理、世界生成和动作生成统一在单一的 Mixture-of-Transformers 架构中，并发布了用于机器人、自动驾驶和仓库监控的模型检查点、数据集和训练脚本。

相似文章

nvidia/Cosmos3-Super-Image2Video

nvidia/Cosmos3-Super

nvidia/Cosmos3-Nano

Cosmos 3: 用于物理AI的全模态世界模型

Nvidia Cosmos 3

提交意见反馈