Gemini Robotics 将 AI 引入物理世界
摘要
Google DeepMind 推出 Gemini Robotics,这是一个基于 Gemini 2.0 的视觉-语言-动作模型,可以控制物理机器人,具有更强的通用性、交互性和灵巧性。该公司还推出了用于空间推理的 Gemini Robotics-ER,并与 Apptronik 合作开发人形机器人。
介绍 Gemini Robotics 和 Gemini Robotics-ER,这是为机器人设计的 AI 模型,使其能够理解、操作和应对物理世界。
查看缓存全文
缓存时间:
2026/04/20 08:36
# Gemini Robotics 将 AI 引入物理世界
来源:https://deepmind.google/blog/gemini-robotics-brings-ai-into-the-physical-world/
介绍 Gemini Robotics,我们基于 Gemini 2.0 的机器人专用模型
在 Google DeepMind,我们一直在推进 Gemini 模型通过文本、图像、音频和视频的多模态推理来解决复杂问题的能力。然而,到目前为止,这些能力主要局限于数字领域。为了让 AI 在物理世界中对人们有用和有帮助,它们需要展示"具身"推理能力——即人类那样理解和响应周围世界的能力——以及安全地采取行动来完成任务。
今天,我们推出两个基于 Gemini 2.0 的新 AI 模型,为新一代有用的机器人奠定基础。
第一个是 Gemini Robotics,这是一个高级视觉-语言-动作(VLA)模型,构建在 Gemini 2.0 的基础之上,添加了物理动作作为新的输出模态,用于直接控制机器人。第二个是 Gemini Robotics-ER,这是一个具有高级空间理解能力的 Gemini 模型,使机器人专家能够利用 Gemini 的具身推理(ER)能力来运行自己的程序。
这两个模型都使各种机器人能够执行前所未有范围广的现实任务。作为我们工作的一部分,我们与 Apptronik 合作,使用 Gemini 2.0 构建下一代人形机器人。我们还与一些精心选择的测试者合作,指导 Gemini Robotics-ER 的未来发展。
我们期待探索这些模型的能力,并继续在实际应用的路上发展它们。
## Gemini Robotics:我们最先进的视觉-语言-动作模型
为了对人们有用和有帮助,机器人 AI 模型需要三个主要特点:它们必须具有通用性,即能够适应不同的情况;它们必须具有交互性,即能够快速理解和响应指令或环境中的变化;它们必须具有灵巧性,即能够做人类通常用手指能做的事情,比如精心操纵物体。
虽然我们之前的工作在这些方面展示了进步,但 Gemini Robotics 代表了在这三个方面性能上的实质性飞跃,使我们更接近真正通用目的的机器人。
### 通用性
Gemini Robotics 利用 Gemini 的世界理解能力来概括新情况并开箱即用地解决各种任务,包括训练中从未见过的任务。Gemini Robotics 也擅长处理新物体、多样化指令和新环境。在我们的技术报告(https://arxiv.org/abs/2503.20020)中,我们展示了 Gemini Robotics 在全面的泛化基准上的平均性能是其他最先进视觉-语言-动作模型的两倍多。
Gemini Robotics 的世界理解演示。
### 交互性
要在我们的动态物理世界中运作,机器人必须能够与人和周围环境无缝互动,并实时适应变化。
因为它构建在 Gemini 2.0 的基础之上,Gemini Robotics 具有直观的交互性。它利用了 Gemini 的高级语言理解能力,能够理解并响应用日常、对话式语言和不同语言表述的命令。
它能够理解和响应比我们以前的模型更广泛的自然语言指令,根据你的输入调整其行为。它还能持续监测周围环境,检测环境或指令的变化,并相应地调整其动作。这种控制方式或"可引导性"可以更好地帮助人们在从家庭到工作场所的各种环境中与机器人助手协作。
如果物体从它的掌握中滑落,或者有人移动了一个物品,Gemini Robotics 会迅速重新规划并继续进行——这是机器人在真实世界中的关键能力,因为在现实中惊喜是常态。
### 灵巧性
为建立一个有用机器人的第三个关键支柱是具有灵巧性(https://deepmind.google/discover/blog/advances-in-robot-dexterity/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=)的动作。许多人类轻松执行的日常任务需要令人惊讶的精细运动技能,对机器人来说仍然太困难了。相比之下,Gemini Robotics 可以处理极其复杂的多步骤任务,需要精确操纵,如折纸或将零食装入 Ziploc 袋。
Gemini Robotics 展示了高级的灵巧性水平
### 多种具身形式
最后,因为机器人有各种形状和大小,Gemini Robotics 也被设计为能够轻松适应不同类型的机器人。我们主要在双臂机器人平台 ALOHA 2(https://aloha-2.github.io/)的数据上训练了该模型,但我们也展示了它可以控制基于许多学术实验室使用的 Franka 臂的双臂平台。Gemini Robotics 甚至可以针对更复杂的具身形式进行专门化,比如 Apptronik 开发的人形机器人 Apollo,目标是完成现实世界的任务。
Gemini Robotics 可在不同类型的机器人上工作
## 增强 Gemini 的世界理解
随着 Gemini Robotics 的推出,我们还介绍了一个名为 Gemini Robotics-ER("具身推理"的缩写)的高级视觉-语言模型。该模型以对机器人学必要的方式增强了 Gemini 的世界理解,特别关注空间推理,并允许机器人专家将其与现有的低级控制器连接。
Gemini Robotics-ER 大幅提高了 Gemini 2.0 的现有能力,如指向和 3D 检测。结合空间推理和 Gemini 的编码能力,Gemini Robotics-ER 可以即时实例化全新的功能。例如,当展示一个咖啡杯时,该模型可以凭直觉为通过把手拿起它而确定适当的两指抓取,以及安全的接近轨迹。
Gemini Robotics-ER 可以执行控制机器人所需的所有步骤,包括感知、状态估计、空间理解、规划和代码生成。在这样的端到端设置中,该模型相比 Gemini 2.0 实现了 2 倍到 3 倍的成功率。在代码生成不够充分的地方,Gemini Robotics-ER 甚至可以利用上下文学习的力量,遵循少数人类演示的模式来提供解决方案。
Gemini Robotics-ER 在具身推理能力上表现出色,包括检测物体和指向物体部分、找到对应点和检测 3D 物体。
## 负责任地推进 AI 和机器人技术
当我们探索 AI 和机器人技术的持续潜力时,我们采取了一个分层、整体(https://sites.google.com/corp/view/safe-robots?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=)的方法来处理我们研究中的安全问题,从低级电机控制到高级语义理解。
机器人和周围人的物理安全是机器人科学中的一个长期的、基础性的关切。这就是为什么机器人专家有经典的安全措施,比如避免碰撞、限制接触力的大小,以及确保移动机器人的动态稳定性。Gemini Robotics-ER 可以与这些"低级"的安全关键控制器接口,特定于每个特定的具身形式。建立在 Gemini 的核心安全特性之上,我们让 Gemini Robotics-ER 模型能够理解某个潜在动作在给定环境中是否可以安全执行,并生成适当的响应。
为了促进学术界和工业界的机器人安全研究,我们也正在发布一个新数据集来评估和改进具身 AI 和机器人技术中的语义安全。在之前的工作中,我们展示了如何受到 Isaac Asimov 的三大机器人定律启发的机器人宪法(https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=)可以帮助提示大语言模型为机器人选择更安全的任务。从那时起,我们开发了一个框架来自动生成数据驱动的宪法——直接用自然语言表达的规则——来引导机器人的行为。这个框架将允许人们创建、修改和应用宪法来开发更安全、更符合人类价值观的机器人。最后,新的 ASIMOV 数据集(https://asimov-benchmark.github.io/)将帮助研究人员严格测量机器人在现实场景中的行为的安全含义。
为了进一步评估我们工作的社会影响,我们与我们的负责任开发和创新团队的专家以及我们的责任和安全委员会合作,后者是一个致力于确保我们负责任地开发 AI 应用的内部审查小组。我们也咨询具身 AI 在机器人应用中所呈现的特定挑战和机会的外部专家。
除了与 Apptronik 的合作外,我们的 Gemini Robotics-ER 模型也可供包括 Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 在内的受信任的测试者使用。我们期待探索这些模型的能力,并继续为下一代更有用的机器人开发 AI。
**致谢**
这项工作由 Gemini Robotics 团队开发。如需查看完整的作者和致谢列表,请参阅我们的技术报告(https://arxiv.org/abs/2503.20020)。
### Gemini Robotics
### Gemini Robotics 1.5 将 AI 代理引入物理世界
### Gemini Robotics 本地版将 AI 引入本地机器人设备
### 负责任地推进 AI 和机器人技术
相似文章
Google DeepMind Blog
Google DeepMind 推出 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5,推进了物理 AI 智能体的发展,这些智能体能够感知、规划、思考和行动来完成复杂的多步骤任务。Gemini Robotics-ER 1.5 现已通过 Gemini API 向开发者提供。
Google DeepMind Blog
Google DeepMind 推出 Gemini Robotics-ER 1.6,这是一款专注于提升机器人具身推理能力的 AI 模型,通过改进空间感知、任务规划和仪器读数能力来实现这一目标。
Google DeepMind Blog
Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。
X AI KOLs
Google DeepMind 发布了 Gemini Robotics-ER 1.6,这是一个升级的模型,具有增强的视觉和空间理解能力,使机器人能够更好地推理和与物理世界互动。
Google DeepMind Blog
Google DeepMind 推出 Gemini Robotics On-Device,这是一个高效的 VLA 模型,可以在机器人设备上本地运行,实现低延迟操作和离线功能,同时保持强大的灵巧操控能力和任务泛化能力。该模型可以通过仅 50-100 个演示进行微调,并附带供开发者使用的 SDK。