Cosmos 3 如何帮助物理 AI 在行动前思考

NVIDIA Blog 模型

摘要

NVIDIA 宣布推出 Cosmos 3,这是一个开放的世界基础模型,结合了视觉推理、多模态生成和动作预测,帮助机器人、自动驾驶车辆和 AI 代理理解并预测现实世界的动态。

<div id="bsf_rt_marker"></div>
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:23

# Cosmos 3 如何帮助物理 AI 在行动前进行思考 新的开源 NVIDIA 世界基础模型将视觉推理、多模态生成和动作预测融为一体,帮助机器人、自动驾驶汽车和视觉 AI 智能体在现实世界中行动前进行思考。 现实世界始终在运动。要实现自主运行,物理 AI 系统——包括机器人、自动驾驶汽车(AV)和智能空间——需要理解的不只是它们看到了什么以及导致该现象的原因,还需要知道接下来可能发生什么。 在仓库中,机器人可能会遇到从未见过的物体布局。在道路上,自动驾驶汽车可能需要应对行人从停放的车辆之间走出的情况。在工厂里,安全系统必须预测叉车的行进方向,而不仅仅是检测到它的存在。 在现实世界中捕捉和重现这些场景既缓慢又昂贵,而且通常无法大规模重复。 NVIDIA Cosmos 3(https://www.nvidia.com/en-us/ai/cosmos/)正是为此循环而构建。这款新的世界基础模型——今天在 COMPUTEX 期间的 NVIDIA GTC 台北大会上发布——将视觉推理与文本、视频、图像、环境声音和动作等多模态生成结合在单个模型中,帮助开发者创建具有物理背景的世界数据。 *Cosmos 3 赋能感知、预测与行动。* 了解更多(https://nvidianews.nvidia.com/news/nvidia-launches-cosmos-3-the-open-frontier-foundation-model-for-physical-ai)关于 Cosmos 3 的混合 Transformer(https://www.nvidia.com/en-us/glossary/mixture-of-transformers/) 架构如何使推理模块先解释场景中正在发生什么,然后利用生成模块将该上下文用于创建物理上合理的输出——从合成视频到机器人任务数据。 ## **为现实世界机器人任务生成动作数据** Cosmos 3 是一个通才基础模型,基于多样化数据训练,使其对场景、运动和机器人动作之间的关系拥有广泛理解。它是一个全能模型(https://www.nvidia.com/en-us/glossary/omni-model/),具备原生动作生成能力,可以生成数值动作数据,例如关节角度、夹爪位置和轨迹点,这些数据描述了机器人应如何移动以完成任务。 为了学习,机器人需要的不仅仅是场景的图像或视频。例如,在拾放任务中,它们需要动作信号来指导如何到达、抓取、移动和放置环境中的物体。开发者可以对 Cosmos 3 进行微调,使机器人在特定本体、相机布局、工作空间或任务上实现专业化。 NVIDIA GEAR(https://research.nvidia.com/labs/gear/)团队正在使用 Cosmos 3 开发视频动作模型,帮助具身智能体学习如何在游戏、模拟和现实世界机器人环境中进行推理、移动和行动。 *音频提示:把所有香蕉放到盘子里。* Agile Robots 正在构建像 Thor 3 或 FR3 这样的人形机器人和其它本体,使其能够自主、精确且高效地处理工业任务。该公司使用 Cosmos 3 为其策略开发生成基于动作条件的机器人数据,以大规模创建多样化的任务轨迹。 您的浏览器不支持视频标签。 *提示:用双臂拿起核心电线并放入箱子中。* *Cosmo 3 Nano 后训练策略在 RoboLab(在模拟环境中测试基于语言引导任务的策略)和 RoboArena(在现实世界环境中比较 DROID 机器人上的策略)上均有领先表现。* ## **对移动中的智慧城市和空间进行推理** Cosmos 3 能够对整个场景进行推理,识别哪些物体正在移动、哪些路径可能交叉以及接下来可能出现的状态。然后它可以生成密集的说明文字、预测的场景变化或场景变体,帮助开发者将理解、预测和警报连接起来,用于工业和基础设施环境中的视觉 AI 智能体。 您的浏览器不支持视频标签。 *使用 Cosmos 3 进行推理的机器人动作规划追踪。* 对于交通系统、工厂、仓库和公共空间,这意味着视频系统可以帮助随时间解释活动、发现异常,并为操作员提供关于复杂环境中发生情况的更丰富背景。 Linker Vision 使用 NVIDIA 的物理 AI 和数字孪生技术构建智能的城市和工业解决方案。作为工作流程的一部分,它利用 Cosmos 的视觉语言推理能力分析实时摄像头流、理解空间上下文、提取有价值的洞察,并对数千个视频源进行根本原因分析。 您的浏览器不支持视频标签。 *Linker Vision 使用由 Cosmos 驱动的 Vision AI 优化城市运营。* *Cosmos 3 在 VANTAGE-Bench(https://huggingface.co/spaces/clemson-computing/VANTAGE-Bench-Leaderboard)上排名最高的开源视觉语言模型,该基准测试评估智能基础设施场景理解;也在 TAR(https://eval.aicitychallenge.org/aicity2026/submission/leaderboard?trackId=3&type=general)挑战赛中表现出色,该挑战测试交通异常推理。* ## **随时间生成罕见的边缘场景** 碰撞和长尾边缘情况是让人形机器人、机械臂机器人和甚至手术机器人为现实世界做好准备的最重要示例之一,但安全、重复且大规模地捕捉它们非常困难。 Cosmos 3 作为一种视频基础模型,可以帮助生成物理上合理的视频序列,以教授现实世界如何随时间变化。 对于物理 AI 开发者而言,这些生成的示例可以支持合成数据工作流和未来状态预测,与真实世界的驾驶数据一起使用——即使条件逐帧变化。 您的浏览器不支持视频标签。 *图像转视频提示:一场高速赛车赛事中,一辆汽车绕过多个蜿蜒弯道。* *Cosmos 3 变体在 Artificial Analysis 的开源权重排行榜上排名第一。Cosmos 3 还在 Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基准测试排行榜上名列前茅。* ## **开始使用 Cosmos 3** 开发者可以在 build.nvidia.com(https://build.nvidia.com/models?q=cosmos)上试用 Cosmos 3,从 Hugging Face(https://huggingface.co/collections/nvidia/cosmos3)下载开源模型,使用 GitHub(https://github.com/nvidia/Cosmos)上的资源定制模型并生成合成数据,以及使用 NVIDIA NIM 微服务进行部署。 凭借 Linux 基金会的 OpenMDW 1.1 许可证,开发者可以在单个、以模型为中心的许可下,跨物理 AI 工作流程使用 Cosmos 模型材料。该许可证使得训练、修改、贡献、再分发和部署包含权重、架构、文档、数据集、基准测试和代码在内的资源变得更加容易。

相似文章

Nvidia Cosmos 3

Hacker News Top

NVIDIA 开源了 Cosmos 3,这是一个物理AI的前沿基础模型,将推理、世界生成和动作生成统一在单一的 Mixture-of-Transformers 架构中,并发布了用于机器人、自动驾驶和仓库监控的模型检查点、数据集和训练脚本。

Cosmos 3: 用于物理AI的全模态世界模型

Hugging Face Daily Papers

Cosmos 3是NVIDIA推出的一系列全模态世界模型,采用统一的混合Transformer架构联合处理语言、图像、视频、音频和动作序列,在物理AI的理解和生成任务上达到了最先进水平。

nvidia/Cosmos3-Super

Hugging Face Models Trending

NVIDIA 发布了 Cosmos3,这是一套用于物理AI的全模态世界基础模型,能够从多种输入生成视频、图像、音频和动作指令,并提供针对不同任务(如策略学习和图像到视频生成)的版本。