无需动手,AI先行:NVIDIA XR AI 将智能体带入 AR 眼镜
摘要
NVIDIA 已公开发布 XR AI 测试版,这是一个开发者库,用于在 AR 眼镜和 XR 设备上构建多模态 AI 智能体,支持实时空间理解和企业集成。
<div id="bsf_rt_marker"></div><h2><i><span style="font-weight: 400">NVIDIA XR AI 现已公开发布测试版,为开发者提供了一个框架,用于为 AR 眼镜和 XR 设备构建多模态 AI 智能体。</span></i></h2>
<p> </p>
查看缓存全文
缓存时间: 2026/06/16 23:33
# 解放双手,AI 向前:NVIDIA XR AI 将智能体带入 AR 眼镜
来源:https://blogs.nvidia.com/blog/nvidia-xr-ai/
NVIDIA XR AI 现已推出公开测试版,为开发者提供了一个框架,用于为 AR 眼镜和 XR 设备构建多模态 AI 智能体。
您的浏览器不支持视频标签。
AI 正在超越聊天机器人和副驾驶,进入物理世界。在实验室、工厂和医院中,新一代 AI 智能体开始与人类并肩工作,帮助他们实时理解环境、获取知识并采取行动。
然而,构建能够结合模型、技能、工具和智能体运行环境,帮助人类完成实际操作工作的自主系统颇具挑战。要在动态、真实的物理环境中有效运行,这些智能体需要做的不仅仅是生成响应。
就像人类工作者一样,它们需要知识、工具和专业技能,才能通过视频、音频和传感器数据感知和理解世界,解读快速变化的条件和空间上下文,从企业系统中检索信息,推理下一步最佳行动,并使用软件工具完成任务。所有这些都必须在低延迟下完成,并以不造成干扰的方式支持用户。
NVIDIA XR AI 是一个开发者库,帮助开发者构建这些自主应用程序。通过将 AR 眼镜和 XR 设备的输入与 AI 模型、企业数据、工具和加速计算相连接,NVIDIA XR AI 使智能体能够在工作流程中感知、推理和行动。
它为开发者提供了构建或连接企业 XR 应用所需技能和工具的基础,简化了多模态感知、企业检索、推理模型和智能体编排的集成。这些能力共同使构建空间感知的多模态 AI 智能体变得更加容易,从而在 AR 和 XR 体验中提供低延迟、上下文感知的辅助。
该平台整合了四个核心能力:
- 摄取来自 AR 和 XR 设备的现实世界信号,包括视频、音频、深度、姿态和传感器数据。
- 将智能体连接到专用工具和服务,包括用于视觉 AI 和视频理解的 NVIDIA Metropolis 和 NVIDIA Metropolis 视频搜索与摘要(VSS),以及用于企业知识检索和检索增强生成的 NVIDIA NeMo Retriever。
- 支持广泛的 AI 模型生态系统,包括 NVIDIA Nemotron 推理模型、NVIDIA Cosmos Reason 及其他兼容的基础模型。
- 集成智能体编排和加速运行时服务,帮助开发者从原型过渡到生产。
NVIDIA NeMo Agent Toolkit 实现了工具使用、推理工作流和多智能体协调,而 NVIDIA 加速计算平台(包括 NVIDIA DGX Spark、NVIDIA DGX Station 和 NVIDIA RTX PRO 系统)则提供了在云端、数据中心和边缘环境运行推理的基础设施。
这些能力共同使 AI 智能体能够理解周围环境、访问企业知识、推理复杂任务,并在实时中提供上下文相关的辅助。
## 各行各业将 NVIDIA XR AI 投入应用
在制造、科学、医疗、设计和沉浸式学习领域,开发者和企业已经在利用 NVIDIA XR AI——将 AI 智能体嵌入工作发生的现场。
**Siemens** 正在研究背景下探索如何使用 NVIDIA XR AI 和 NVIDIA DGX Spark,帮助工厂工程师查找维护信息、排查问题、验证工作,并记录车间发生的事情。
通过该系统,佩戴轻便眼镜的工程师可以询问 AI 智能体有关可编程逻辑控制器的问题,并接收实时指导,将工业系统、数字孪生和自动化工作流连接起来。
您的浏览器不支持视频标签。
在研究实验室中,**Rana**(一家为科学研究构建 AI 系统的 AutoBio 公司)正在其 LabOS 系统中引入 NVIDIA XR AI,将空间智能直接带入科学工作流。LabOS 为复杂的实验工作流提供实时、免提的指导,首先在**斯坦福大学医学院的 Cong Lab** 和**普林斯顿大学的 Wang Lab** 开展干细胞治疗和基因编辑研究。
基于 XR AI 架构,LabOS 合作科学家能够感知、理解并在实验室内行动,帮助研究人员识别正确的样本和 CRISPR 基因编辑器,指导每一步实验,并在人类、机器人和 AI 系统在实验台协作时,捕获结构化的可复现记录。
通过 AR 眼镜交付并由 NVIDIA GPU 驱动的物理感知 AI 智能体,成为 AI 辅助科学的下一个接口——让研究人员专注于复杂程序,同时实时接收上下文指导。
您的浏览器不支持视频标签。
LabOS 兼容来自 Meta、Rokid 和 VITURE 的智能眼镜。
**VITURE (https://www.prnewswire.com/news-releases/viture-unveils-helix-the-first-ai-safety-glasses-built-on-nvidia-s-xr-ai-solution-at-awe-2026-302802005.html)** 将 NVIDIA XR AI 集成到可穿戴界面中,为工人提供免提方式,在作业点找到正确上下文并指导下一步操作。这个相同的 XR AI 基础自然延伸到了实验室之外,进入诊所和工业环境。
您的浏览器不支持视频标签。
在手术室中,**匹兹堡大学医学中心的 Surreality Lab** 展示了 NVIDIA XR AI 如何通过上下文感知辅助支持外科团队。该管道基于 NVIDIA XR AI 和 NVIDIA DGX Station 运行,旨在帮助团队查找信息并引导注意力,同时避免给外科医生增加视觉干扰。
通过理解在医生视野中不应遮挡什么,系统能够显示有用的上下文,同时保持对患者和手术的关注。
您的浏览器不支持视频标签。
在汽车设计中,**Innoactive** 展示了企业如何在沉浸式工作流中捕获相关信息与数据,以支持设计决策。
在 NVIDIA DGX Spark 系统的支持下,**该体验 (https://innoactive.io/halo)** 帮助团队保留设计评审、产品展示厅和数字孪生中的上下文,使空间工作从一次性会话转变为可重复的企业流程。
**Atlantic Studios** 是一家多次获得奥斯卡和艾美奖的故事讲述与沉浸式媒体工作室,正在使用 NVIDIA XR AI 让观众探索泰坦尼克号现今状态的沉浸式扫描。
用户可以通过语音提示查找兴趣点,并引导探索这一历史遗址——将复杂的水下模型转变为互动空间故事,实时回答问题、展示上下文、帮助用户学习。
您的浏览器不支持视频标签。
随着 AI 智能体获得感知物理世界、使用工具、访问企业知识以及与人类协作的能力,它们正成为一种新型数字工作者。NVIDIA XR AI 提供了开发者构建这些智能体所需的库和加速计算基础,适用于实验室、工厂、医院和沉浸式环境——将自主 AI 直接带入工作流程。
*了解更多关于 NVIDIA XR AI 的信息,并访问**开发者资源 (https://developer.nvidia.com/xr/xr-ai)**。*
*请参阅关于软件产品信息的**通知 (https://www.nvidia.com/en-eu/about-nvidia/terms-of-service/)**。*
相似文章
Google 在 I/O 大会上发布 Android XR 智能眼镜
Google 在其 I/O 大会上发布了 Android XR 智能眼镜,标志着其对增强现实硬件的新一轮推广。
NVIDIA通过用于自动驾驶汽车、机器人和视觉AI的智能体技能开启物理AI研究新时代
NVIDIA在CVPR上宣布了新的物理AI智能体技能,用于加速自动驾驶汽车、机器人和视觉AI的研究,包括神经重建、模拟和强化学习工具。
谷歌即将推出的Android XR智能眼镜全面上手体验
谷歌在I/O大会上提前展示了来自Warby Parker、Gentle Monster和Xreal的即将推出的Android XR智能眼镜,其中仅支持音频的型号将于今年秋季发布,配备显示屏的版本随后推出。
谷歌想让Gemini AI戴在你脸上,以便日后卖给你更多广告
谷歌宣布将于2026年秋季推出Android XR智能眼镜,集成Gemini AI,并与三星、高通、Gentle Monster和Warby Parker合作开发。
NVIDIA研究解锁高级抓取、更智能的自动驾驶和大规模智能体训练
NVIDIA研究在CVPR上展示三篇论文:GraspGen-X(零样本抓取基础模型)、LCDrive(高效自动驾驶推理)和NitroGen(通用游戏AI基础模型),强调物理AI系统的大规模训练。