NVIDIA研究解锁高级抓取、更智能的自动驾驶和大规模智能体训练

NVIDIA Blog 论文

摘要

NVIDIA研究在CVPR上展示三篇论文:GraspGen-X(零样本抓取基础模型)、LCDrive(高效自动驾驶推理)和NitroGen(通用游戏AI基础模型),强调物理AI系统的大规模训练。

<div id="bsf_rt_marker"></div><p><span style="font-weight: 400;">机器人夹爪的价值不在于它能拿起一个物体,而在于它能拿起下一个,再下一个,使用它从未握持过的工具。</span></p> <p><span style="font-weight: 400;">自动驾驶系统安全性不仅在于能够推理场景,更在于能够在车辆实际安装的硬件上足够快地完成推理。</span></p> <p><span style="font-weight: 400;">虚拟智能体的能力取决于它在面对真实世界之前,接触尽可能多的不同环境。</span></p> <p><span style="font-weight: 400;">在今年的计算机视觉与模式识别(CVPR)大会上,NVIDIA研究团队展示的三篇论文分别应对上述挑战,并共享一个主题:大规模训练能构建泛化于多样化应用的系统。</span></p> <p><span style="font-weight: 400;">这三篇论文覆盖了物理AI研究中的不同挑战:</span></p> <ul> <li style="font-weight: 400;" aria-level="1"><b>GraspGen-X</b><span style="font-weight: 400;">,首个零样本抓取基础模型,基于数十亿次模拟抓取训练,可适配它所遇到的任何夹爪。</span></li> <li style="font-weight: 400;" aria-level="1"><b>LCDrive</b><span style="font-weight: 400;">,引入一种模型,用紧凑的潜在表示替代昂贵的基于文本的推理,使自动驾驶系统在嵌入式硬件上思考更快。</span></li> <li style="font-weight: 400;" aria-level="1"><b>NitroGen</b><span style="font-weight: 400;">,一个通用游戏AI基础模型,利用</span><a target="_blank" href="https://developer.nvidia.com/isaac/gr00t"><span style="font-weight: 400;">NVIDIA Isaac GR00T</span></a><span style="font-weight: 400;">机器人基础模型架构,帮助在虚拟环境中训练具身智能体,交互时间达数万小时。</span></li> </ul> <p><span style="font-weight: 400;">NVIDIA还在CVPR上公布了</span><a href="https://blogs.nvidia.com/blog/cvpr-physical-ai-research-agent-skills"><span style="font-weight: 400;">新的物理AI智能体技能</span></a><span style="font-weight: 400;">,帮助研究人员和开发者加速自动驾驶、机器人和视觉AI系统的开发。</span></p> <h2><b>首个抓取基础模型</b></h2> <p><span style="font-weight: 400;">大多数机器人抓取AI系统都是专有专家。</span></p> <p><span style="font-weight: 400;">针对双指夹爪训练的</span><a target="_blank" href="https://www.nvidia.com/en-us/glossary/reasoning-vision-language-action/"><span style="font-weight: 400;">视觉-语言-动作</span></a><span style="font-weight: 400;">策略只能学会用这两根手指抓取。类似地,用于灵巧抓取的策略也只能适用于它所训练的定制多指夹爪。每遇到一种新的实体,通常需要重复整个流程——需要新的训练数据、微调和验证。这种限制意味着大多数机器人公司会选择一款夹爪,为其训练,然后持续使用。</span></p> <p><a target="_blank" href="https://graspgenx.github.io/"><b>GraspGen-X</b></a><span style="font-weight: 400;">是首个旨在消除这一瓶颈的抓取基础模型。</span></p> <p><span style="font-weight: 400;">就像一个大型语言模型无需重新训练即可将语言理解应用于新任务,GraspGen-X将其对几何和接触的理解应用于任何遇到的机器人夹爪。给定一个新夹爪的几何形状和一个从未见过的未知物体,该模型能生成可靠的抓取姿态提案,使机器人抓取该物体。</span></p> <div style="width: 1200px;" class="wp-video"><video class="wp-video-shortcode" id="video-93940-1" width="1200" height="675" preload="metadata" controls="controls"><source type="video/mp4" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/GraspGenX.mp4?_=1" /><a href="https://blogs.nvidia.com/wp-content/uploads/2026/06/GraspGenX.mp4">https://blogs.nvidia.com/wp-content/uploads/2026/06/GraspGenX.mp4</a></video></div> <p><span style="font-weight: 400;">为此,研究人员需要一个在现实世界中无法大规模收集的数据集。他们生成了20亿次模拟抓取,覆盖数千种物体形状和合成夹爪配置,涵盖了部署机器人可能遇到的各种外形因素。</span></p> <p><span style="font-weight: 400;">对于机器人开发者,该基础模型消除了针对每个夹爪的训练周期,可开箱应用于多种常用夹爪。GraspGenX可与</span><a target="_blank" href="https://curobo.org/"><span style="font-weight: 400;">curoboV2</span></a><span style="font-weight: 400;">(一种新的CUDA加速运动规划库)结合使用,在未知环境中实现这些抓取姿态。</span></p> <p><span style="font-weight: 400;">基于GraspGen的研究基础,另一篇论文</span><a href="https://blogs.nvidia.com/blog/icra-research-robotics-simulation-to-real-world/"><span style="font-weight: 400;">Grasp-MPC——在ICRA 2026上展示</span></a><span style="font-weight: 400;">——推进了流水线中的下一步:从抓取生成过渡到闭环抓取执行。</span></p> <h2><b>教会自动驾驶更快思考</b></h2> <p><span style="font-weight: 400;">近年来,研究人员发现,让AI进行推理——在给出答案前生成中间思考步骤——能稳健地改善决策质量。</span></p> <p><span style="font-weight: 400;">对于自动驾驶,挑战在于在真实车辆内部的硬件上完成这种推理。基于文本的思维链推理会生成单词,每个单词都是一个需要时间生成的令牌(token)。在车内运行的处理器上,令牌数量是系统响应速度的实际限制。</span></p> <p><b>LCDrive</b><span style="font-weight: 400;">通过用压缩的潜在表示替代单词来解决这一问题。</span></p> <p><span style="font-weight: 400;">系统不是生成人类可读的推理步骤,而是在一个紧凑的潜在空间中思考——这些状态捕捉空间信息,而不生成文本。该架构在两种思考模式间交替:提出候选动作,然后预测如果执行这些动作世界会变成什么样。</span></p> <p><span style="font-weight: 400;">它利用预测的世界状态来优化下一步。这与自然语言是相同的推理循环,只是计算效率更高。</span></p> <p><span style="font-weight: 400;">结果:输出轨迹质量与基于文本的推理相当,但使用的令牌数量大约只有一半。</span></p> <p><span style="font-weight: 400;">该模型基于</span><a target="_blank" href="https://www.nvidia.com/en-us/solutions/autonomous-vehicles/alpamayo/"><span style="font-weight: 400;">NVIDIA Alpamayo</span></a><span style="font-weight: 400;">构建,并使用从现有车辆数据中导出的监督信号进行训练。</span></p> <p><iframe title="Latent Chain-of-Thought World Modeling for End-to-End Driving" width="1200" height="675" src="https://www.youtube.com/embed/dFQLqAbyozM?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe></p> <h2><b>在虚拟世界中训练的具身智能体</b></h2> <p><span style="font-weight: 400;">Isaac GR00T —— NVIDIA的开放人形机器人基础模型 —— 建立在简单的原则</span></p>
查看原文
查看缓存全文

缓存时间: 2026/06/03 15:38

# NVIDIA Research 解锁高级抓取、更智能的自动驾驶和大规模智能体训练 来源:https://blogs.nvidia.com/blog/cvpr-research-grasping-driving-agent-training/ 一个机器人夹爪的价值,不在于它能抓起一件物体——而在于它能抓起下一件、再下一件,而且是用它从未拿过的工具。 一个自动驾驶系统的安全,不仅在于它能推理某个场景——更在于它能在车上实际安装的硬件上足够快速地完成推理。 一个虚拟智能体的能力,取决于它在面对真实世界之前,尽可能多地接触不同的环境。 在今年计算机视觉与模式识别会议(CVPR)上,NVIDIA Research 发表了三篇论文,分别应对这些挑战——它们有一个共同主题:大规模训练能够创建可泛化到多种应用的系统。 这三篇论文涵盖了物理 AI 研究中的不同挑战: - **GraspGen-X**,首个用于零样本抓取的基础模型,经过数十亿次模拟抓取训练,能处理任何展示给它的夹爪。 - **LCDrive** 引入了一种模型,用紧凑的潜在表示取代昂贵的文本推理,让自动驾驶汽车在嵌入式硬件上思考得更快。 - **NitroGen** 是一个通用的游戏玩法 AI 基础模型,利用 NVIDIA Isaac GR00T(https://developer.nvidia.com/isaac/gr00t)机器人基础模型架构,帮助在虚拟环境中训练具身智能体,涉及数万小时的交互。 NVIDIA 还在 CVPR 上公布了新的物理 AI 智能体技能(https://blogs.nvidia.com/blog/cvpr-physical-ai-research-agent-skills),帮助研究者和开发者加速自动驾驶汽车、机器人和视觉 AI 系统的开发。 ## **首个用于抓取的基础模型** 大多数用于机器人抓取的 AI 系统都是专精的。 针对两指夹爪训练的视觉-语言-动作(https://www.nvidia.com/en-us/glossary/reasoning-vision-language-action/)策略,只能学会用这两只手指抓取。同样,灵巧抓取策略也只对训练时用到的定制多指夹爪有效。面对每种新的形体,通常需要重复整个过程——新的训练数据、微调和验证。这种限制意味着大多数机器人公司会选择一种夹爪,为其训练并一直使用。 **GraspGen-X**(https://graspgenx.github.io/)是首个旨在消除这一瓶颈的抓取基础模型。 就像大型语言模型无需重新训练就能将对语言的理解应用于新任务一样,GraspGen-X 将对几何和接触的理解应用于任何遇到的机器人夹爪。给定一个新夹爪的几何形状和一个从未见过的物体,该模型会生成可靠的抓取姿势建议,使机器人能够抓取该物体。 https://blogs.nvidia.com/wp-content/uploads/2026/06/GraspGenX.mp4 为此,研究人员需要获取一个在现实世界中难以大规模收集的数据集。他们生成了 20 亿次模拟抓取,涉及数千种物体形状和合成夹爪配置,涵盖了实际部署机器人可能遇到的各种形态。 对于机器人开发者来说,这个基础模型消除了针对每个夹爪进行训练循环的需要,并且可以开箱即用于几种常用夹爪。GraspGenX 可以与 curoboV2(https://curobo.org/)——一个基于 CUDA 加速的新型运动规划库——结合使用,在未知环境中实现这些抓取姿势。 在 GraspGen 研究的基础上,另一篇论文 Grasp-MPC ——在 ICRA 2026(https://blogs.nvidia.com/blog/icra-research-robotics-simulation-to-real-world/)发表——推进了流程的下一步:从抓取生成到闭环抓取执行。 ## **教会自动驾驶汽车更快思考** 近年来,研究人员发现,让 AI 进行推理——在给出答案之前生成中间思考步骤——能够可靠地改善其决策能力。 对于自动驾驶汽车来说,挑战在于如何在真实车辆内的硬件上完成这种推理。基于文本的思维链推理会生成单词,而每个词都是一个需要时间生成的词元。在汽车内部运行的处理器上,词元数量是系统响应速度的实际约束。 **LCDrive** 通过用压缩的潜在表示取代单词来解决这个问题。 系统不再生成人类可读的推理步骤,而是在一个紧凑的潜在空间中进行思考——该空间捕捉空间信息,而非生成文本。架构在两种思考模式之间交替:先提出候选动作,然后预测如果执行这些动作,世界会变成什么样。 它利用这种预测的世界状态来优化下一步。这是相同的推理循环——只是计算效率比自然语言更高。 结果:输出轨迹质量与基于文本的推理相当,但使用的词元大约减少一半。 该模型基于 NVIDIA Alpamayo(https://www.nvidia.com/en-us/solutions/autonomous-vehicles/alpamayo/)构建,并使用从现有车辆数据中导出的监督信号进行训练。 ## **在虚拟世界中训练的具身智能体** Isaac GR00T——NVIDIA 为类人机器人开发的开源基础模型——基于一个简单的原则:让模型接触足够多的不同场景,它就能泛化到未见过的场景。 **NitroGen** 将该原则扩展到虚拟环境,利用 GR00T 架构来训练一个适用于多种虚拟世界的具身智能体基础模型。 电子游戏提供了一些很难从头构建的东西:结构丰富、多样化的世界,带有明确目标和精心定义的成功条件。它们是高质量的训练环境,并且可以大规模获取。 NitroGen 正是这样看待它们——作为智能体的训练场,这些智能体最终将被训练来处理新颖的真实或模拟世界场景,例如驱动一个根据“把这些物品放到食品储藏室里”这样宽泛指令来帮助做家务的机器人。 通过基于 GR00T 的模型,在超过 1,000 款游戏和 40,000 小时的交互中进行训练,由此产生的智能体学会了跨环境泛化。该模型在一系列动作角色扮演游戏、平台游戏、roguelike 游戏和开放世界游戏中进行了评估,展示了涵盖战斗、导航和探索的游戏行为。 https://blogs.nvidia.com/wp-content/uploads/2026/06/NitroGen.mp4 同样的技术最终可能有助于实现游戏中更具适应性的非玩家角色、AI 同伴和游戏系统,以及对复杂游戏环境的更广泛测试。 在数据稀缺的情况下——即智能体只见过新环境的少量样本——以 NitroGen 为起点能给予智能体巨大的先发优势,与之前最先进的方法相比,性能提升高达 52%。 该模型是开源的,可在 GitHub(https://github.com/MineDojo/NitroGen)和 Hugging Face(https://huggingface.co/nvidia/NitroGen)上获取。 *在**NVIDIA at CVPR**(https://www.nvidia.com/en-us/events/cvpr/)了解更多信息,并**探索 NVIDIA Research**(https://research.nvidia.com/)在物理 AI、计算机视觉和自主系统方面的工作。**开始使用 Isaac GR00T 和 NVIDIA 机器人工具**(https://developer.nvidia.com/isaac)。*

相似文章

National Robotics Week — 最新物理AI研究、突破与资源

NVIDIA Blog

National Robotics Week 期间,NVIDIA 重点展示了其在物理AI和机器人领域的突破,宣布了多项新技术,包括用于自然语言指令理解的NVIDIA Isaac GR00T开源模型、用于合成数据生成的Cosmos世界模型、Newton 1.0物理引擎,以及借助Isaac Sim 6.0和Isaac Lab 3.0扩展的仿真能力,从而加速机器人从训练到现实部署的开发进程。

走进 Omniverse:NVIDIA GTC 展示赋能物理智能时代的虚拟世界

NVIDIA Blog

NVIDIA GTC 2026 展示了物理智能领域的重大突破,包括全新前沿模型(Cosmos 3、Isaac GR00T N1.7、Alpamayo 1.5)以及用于扩展机器人、车辆和工厂部署的基础设施蓝图。本届大会重点突出了虚拟世界与数字孪生技术如何推动各行业的跨企业级物理智能落地应用。