nvidia/Cosmos3-Super-Text2Image

Hugging Face Models Trending 模型

摘要

NVIDIA 发布了 Cosmos3-Super-Text2Image,这是一个文生图模型,属于 Cosmos3 全模态世界模型平台的一部分,用于物理 AI,使机器能够理解和模拟物理世界。

任务:文生图 标签:cosmos, diffusers, safetensors, cosmos3_omni, nvidia, cosmos3, vllm-omni, text-to-image, image-generation, license:other, region:us
查看原文
查看缓存全文

缓存时间: 2026/06/02 21:35

nvidia/Cosmos3-Super-Text2Image · Hugging Face 来源:https://huggingface.co/nvidia/Cosmos3-Super-Text2Image ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#cosmos-3-omnimodal-world-models-for-physical-aiCosmos 3:面向物理AI的全模态世界模型 模型集合 (https://huggingface.co/collections/nvidia/cosmos3)|代码 (https://github.com/nvidia/cosmos)|白皮书 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf)|网站 (https://research.nvidia.com/labs/cosmos-lab/cosmos3/) NVIDIA CosmosTM (https://github.com/nvidia/cosmos) 是一个世界基础模型平台,旨在加速物理AI的发展,使机器能够理解、模拟和与物理世界交互,涵盖机器人、自动驾驶、智能空间环境(包括工业和工厂规模的应用)。 ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#model-overview-cosmos3-super-text2image模型概述:Cosmos3-Super-Text2Image ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#description描述 Cosmos3 是一个全模态世界模型集合,能够根据文本、图像、视频和动作轨迹的组合,生成动态、高质量的视频、图像、音频和动作指令。它作为广泛物理AI应用和研究的基础构建模块,涵盖世界理解、世界生成、仿真和具身策略学习。该模型可用于商业和非商业用途。 **模型开发者:**NVIDIA ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#model-versions模型版本 - Cosmos3-Nano: - 给定多模态输入(包括文本、图像、视频、音频和动作轨迹),生成连贯的文本、图像、视频、音频和动作输出,用于多模态理解、世界仿真、未来预测、动作推理和物理AI应用。 - Cosmos3-Super: - 给定多模态输入(包括文本、图像、视频、音频和动作轨迹),生成连贯的文本、图像、视频、音频和动作输出,用于多模态理解、世界仿真、未来预测、动作推理和物理AI应用。 - Cosmos3-Nano-Policy-DROID: - 给定来自DROID机器人平台的语言指令和视觉观察,生成用于操作和控制任务的机器人动作轨迹。 - Cosmos3-Super-Image2Video: - 给定一张输入图像和文本指令,生成与提供的视觉内容一致的时间连贯视频序列。 - Cosmos3-Super-Text2Image: - 给定文本输入,生成与描述一致的高保真图像。 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#license许可证 该模型基于 OpenMDW1.1 (https://openmdw.ai/license/1-1/) 发布 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#deployment-geography部署地域 全球 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#use-case用例 物理AI:涵盖机器人、自动驾驶汽车(AV)和智能空间环境,包括工业和工厂规模的应用。 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#release-date发布日期 Hugging Face 2026年5月31日 via https://huggingface.co/collections/nvidia/cosmos3 GitHub 2026年5月31日 via https://github.com/nvidia/cosmos ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#model-architecture模型架构 **架构类型:**Transformer **网络架构:**Mixture-of-Transformers (MoT) Cosmos3 是一个全模态基础模型,基于 Mixture-of-Transformers (MoT) 架构构建,由两个互补的Transformer塔组成:一个用于离散token生成的自回归Transformer,以及一个用于连续多模态生成的扩散Transformer。在推理过程中,文本通过标准的下一token自回归解码生成,而图像、视频、音频和动作等非文本模态则通过迭代去噪合成。这种统一架构使Cosmos3能够在单一框架内建模异构模态,同时保留最适合每种模态的生成机制。 **该模型基于以下技术开发:**Cosmos Framework (https://github.com/nvidia/cosmos-framework) 可训练模型参数数量: - Cosmos3-Nano:16B - Cosmos3-Super:64B - Cosmos3-Nano-Policy-DROID:16B - Cosmos3-Super-Image2Video:64B - Cosmos3-Super-Text2Image:64B ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#inputoutput-specifications输入/输出规格 - 生成器输入- **输入类型:**文本、图像、视频(带或不带音频)、动作轨迹 - 输入格式:- 文本:字符串 - 图像:jpg、png、jpeg、webp - 视频(带或不带音频):mp4 - 动作:json(1D列表) - 输入参数:- 文本:一维(1D) - 图像:二维(2D) - 视频:三维(3D) - 音频:一维(1D) - 动作轨迹:一维(1D) - 输入的其他属性:- 对于视频输入,我们接受多种分辨率,包括720p、480p和256p。 - 当使用将音频混入视频MP4文件的输入视频时,音频应为2声道(立体声)和48 kHz采样率。 - 图像和视频输入为RGB色彩(每通道8位,sRGB色彩空间);不支持灰度输入。 - 动作输入是每帧机器人/智能体状态或控制值的序列(例如,关节位置、夹爪状态、相机姿态)。完整输入是一个形状为(T, D)的二维数组,其中T是帧数,D是下面列出的特定于具身形态的维度。 - 动作输入仅支持兼容的具身形态,包括通用相机运动(9D)、自动驾驶汽车(9D)、自我中心运动(57D)、单Franka Panda臂带RobotiQ夹爪(10D)、双Franka Panda臂带RobotiQ夹爪(20D)、Agibot(29D)、UR(10D)、Google机器人(10D)、WidowX 250(10D)、UMI(9D)。 - 输入大小和长度限制:- **文本:**4096个token - **图像:**256p、480p和720p分辨率,宽高比为以下之一:16:9、4:3、1:1、3:4、9:16 - **视频:**256p、480p和720p分辨率,宽高比为以下之一:16:9、4:3、1:1、3:4、9:16。最大帧数 = 5。 - **音频:**最大0.5秒 - **动作:**16 – 400视频帧 - 生成器输出- **输出类型:**图像、视频、音频、动作、文本 - 输出格式:- 图像:JPG - 视频:MP4 - 音频:高级音频编码(AAC)流(混入MP4中) - 动作:1D列表 (.json) - 文本:字符串 - 输出参数:- 图像:二维(2D) - 视频:三维(3D) - 音频:一维(1D) - 动作:一维(1D) - 文本:一维(1D) - 输出的其他属性:- 生成的视频是一个MP4文件,分辨率、帧率和时长由输入指定。生成的音频以AAC格式编码,混入视频MP4文件中,2声道(立体声),采样率48 kHz。 - 视频生成支持时长从5帧到400帧,默认生成时长为189帧。 - 生成的动作仅支持兼容的具身形态,包括通用相机运动(9D)、自动驾驶汽车(9D)、自我中心运动(57D)、单Franka Panda臂带RobotiQ夹爪(10D)、双Franka Panda臂带RobotiQ夹爪(20D)、Agibot(29D)、UR(10D)、Google机器人(10D)、WidowX 250(10D)、UMI(9D)。 - 音频:48 kHz立体声AAC流混入视频mp4 - 视频:以输入指定的FPS的mp4 - 图像:JPEG - 推理器输入- **输入类型:**文本、文本+图像、文本+视频 - 输入格式:- 文本:字符串 - 图像:jpg、png、jpeg、webp - 视频:mp4 - 输入参数:- 文本:一维(1D) - 图像:二维(2D) - 视频:三维(3D) - 输入的其他属性:- 视频输入建议使用帧率4 fps。 - 支持最长256K token的长上下文输入。 - 输入大小和长度限制:- **文本:**最多256K token(上下文窗口)。 - **图像:**标准输入图像格式;以文件或URL形式传递。 - **视频:**mp4,建议4 fps。 - 推理器输出- **输出类型:**文本 - 输出格式:- 文本:字符串 - 输出参数:- 文本:一维(1D) - 输出的其他属性:- 对于推理输出,建议使用默认max_tokens=4096+;可请求更长的输出。 - 推理输出可能包括结构化思维链、2D/3D点定位和基于视觉任务的边界框坐标。 视频内容将输入文本描述可视化为一个简短的动画场景,在指定的时间约束内捕捉关键元素。我们的AI模型设计并/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),与仅使用CPU的方案相比,该模型实现了更快的训练和推理时间。 ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#software-integration软件集成 运行时引擎: - PyTorch (https://github.com/nvidia/cosmos3) - vLLM-Omni (https://github.com/vllm-project/vllm-omni) - Hugging Face Diffusers (https://huggingface.co/docs/diffusers/en/index) 支持的硬件微架构兼容性: - NVIDIA Ampere - NVIDIA Blackwell - NVIDIA Hopper 操作系统: - Linux(我们尚未在其他操作系统上测试。) **注意:**仅测试了BF16精度。其他精度如FP4、FP8和FP16官方不支持。 将基础模型和微调模型集成到AI系统中需要额外的测试,使用特定于用例的数据以确保安全有效的部署。遵循V模型方法论,在单元和系统层面进行迭代测试和验证对于降低风险、满足技术和功能要求,并在部署前确保符合安全和道德标准至关重要。 ## https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#training-testing-and-evaluation-datasets训练、测试和评估数据集 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#dataset-overview数据集概述 - **总大小:**13亿数据点 - **数据集总数:**393个数据集条目 - **数据集划分:**训练[100%],测试[不适用——评估基准单独使用],验证[不适用——评估基准单独使用] - **训练数据收集时间范围:**2024–2026 - **测试数据收集时间范围:**不适用(标准公开基准) - **验证数据收集时间范围:**不适用(标准公开基准) 来自内部和外部来源的原始数据通过多个阶段的整理、过滤和质量审查转化为训练就绪数据。数据采集涉及多种多模态来源——机器人、自动驾驶、工业环境、室内和室外场景、不同的光照和天气条件、相机视角、物体类别和人类活动——以扩大物理AI运行环境的覆盖范围。自动过滤管道移除损坏、重复、低质量和受限制的内容。在预处理过程中应用元数据分析、启发式规则和模型辅助分类器来标记异常分布和低多样性子集。对于选定的数据集、基准构建和有针对性的质量分析,人工审查补充了自动过滤。数据集跨模态和任务类别进行平衡——视觉推理、文本到图像、文本到视频、图像到视频、音频生成、视频传输、动作条件生成和动作指令生成——以减少对狭窄领域的过度表示。合成和基于仿真的增强补充了稀有物理交互和边缘案例场景的覆盖。整个语料库应用了去重和溯源追踪。处理后的数据在训练开始前,通过特定模态的预处理器转换为模型就绪的token化或编码表示。 训练数据集通过多层自动和人工保障措施,旨在减少有害或违反政策的内容,类别包括武器及武器相关教学内容、犯罪计划、儿童性虐待材料(CSAM)、非自愿亲密图像(NCII)、涉及未成年人的性内容、骚扰、仇恨言论、脏话、威胁和煽动暴力、自残或自杀相关内容以及严重暴力。数据源在纳入训练语料库之前,会审查其许可兼容性、溯源以及是否符合内部数据治理和安全政策。自动过滤管道结合了多种检测策略:针对已知CSAM和NCII参考数据库的哈希匹配;针对露骨性内容、仇恨言论、暴力、武器图像及其他限制类别的基于分类器的审核模型;针对文本数据中犯罪计划、威胁和自残短语的关键词和正则表达式筛查;针对源级风险信号的元数据和溯源启发式规则;以及基于嵌入的异常检测,以识别超出预期分布的样本。对于选定的数据集、基准构建和安全敏感性评估,人工审查和定向审计补充了自动过滤。对于多模态物理AI数据(机器人、自动驾驶、工业场景),额外过滤针对无效动作轨迹、物理上不合理的交互和不安全的控制序列。合成和仿真生成的数据在纳入前通过内部验证进行评估。训练后应用基准评估和红队测试,以发现世界生成、推理、音频和动作任务中剩余的安全差距。没有大规模数据过滤过程能够保证完全移除所有有害内容;残留风险可能存在,特别是在罕见的边缘情况或开放世界部署场景中。发布后持续进行监控和数据集审查。 数据模态和训练数据大小 模态推理数据样本计数生成数据样本计数文本22M不适用图像19M767M视频1M348M音频不适用139M动作不适用8M 按数据集的数据收集方法 - 混合:自动/传感器、合成、自动化 按数据集的标注方法 - 混合:人工、自动化 **属性:**训练、测试和评估数据集由多种多模态视频、图像、音频、动作、合成和传感器条件数据组成,这些数据来源于NVIDIA自有数据和公开可用、商业许可的数据集。这些数据集经过整理以排除已知的受限内容,并支持构建一个全模态模型,该模型学习在世界推理和生成任务中生成和推理动态物理环境。 ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#public-datasets公开数据集 数据集样本数OpenImage1.2M Coyo700M 100M YouTube视频340M UMI4.5M ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#private-datasets私有数据集 数据集样本数自我中心7M Nexar0.6M AgiBot0.2M HOI0.3M ### https://huggingface.co/nvidia/Cosmos3-Super-Text2Image#synthetic-datasets合成数据集 数据集样本数使用HiDream-I生成的合成图像115M 使用Qwen-Image-25生成的合成图像1214M 使用Qwen3-VL生成的合成字幕1115M ## https://

相似文章

nvidia/Cosmos3-Super-Image2Video

Hugging Face Models Trending

NVIDIA 发布 Cosmos3-Super-Image2Video,该模型能够根据输入图像和文本指令生成时间上连贯的视频序列,是面向物理 AI 应用的 Cosmos 3 全模态世界模型平台的一部分。

nvidia/Cosmos3-Super

Hugging Face Models Trending

NVIDIA 发布了 Cosmos3,这是一套用于物理AI的全模态世界基础模型,能够从多种输入生成视频、图像、音频和动作指令,并提供针对不同任务(如策略学习和图像到视频生成)的版本。

nvidia/Cosmos3-Nano

Hugging Face Models Trending

NVIDIA 发布 Cosmos3-Nano,一个用于物理 AI 的全能世界模型,能够从文本、图像、视频和动作输入生成视频、图像、音频和动作指令,面向机器人、自动驾驶和智能空间应用。

Cosmos 3: 用于物理AI的全模态世界模型

Hugging Face Daily Papers

Cosmos 3是NVIDIA推出的一系列全模态世界模型,采用统一的混合Transformer架构联合处理语言、图像、视频、音频和动作序列,在物理AI的理解和生成任务上达到了最先进水平。

Nvidia Cosmos 3

Hacker News Top

NVIDIA 开源了 Cosmos 3,这是一个物理AI的前沿基础模型,将推理、世界生成和动作生成统一在单一的 Mixture-of-Transformers 架构中,并发布了用于机器人、自动驾驶和仓库监控的模型检查点、数据集和训练脚本。