Gemini Robotics 1.5 将 AI 智能体带入物理世界
摘要
Google DeepMind 推出 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5,推进了物理 AI 智能体的发展,这些智能体能够感知、规划、思考和行动来完成复杂的多步骤任务。Gemini Robotics-ER 1.5 现已通过 Gemini API 向开发者提供。
我们正在推动物理智能体时代的到来——使机器人能够感知、规划、思考、使用工具和采取行动,从而更好地解决复杂的多步骤任务。
查看缓存全文
缓存时间:
2026/04/20 08:35
# Gemini Robotics 1.5 将 AI 代理带入物理世界
来源:https://deepmind.google/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
2025 年 9 月 25 日 | 模型
我们正在开启物理代理时代 — 使机器人能够感知、规划、思考、使用工具和行动,以更好地解决复杂的多步骤任务。
今年早些时候,我们在将 [Gemini](https://deepmind.google/models/gemini/) 的多模态理解应用于物理世界方面取得了重大进展,首先推出了 [Gemini Robotics](https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/) 系列模型。
今天,我们向推进智能、真正通用的机器人迈出了另一步。我们推出两个模型,它们通过先进的思考能力解锁代理体验:
- **Gemini Robotics 1.5** (https://deepmind.google/models/gemini-robotics/gemini-robotics/) – 我们最强大的视觉-语言-动作 (VLA) 模型将视觉信息和指令转化为机器人执行任务的电机命令。该模型在采取行动前进行思考并展示其过程,帮助机器人更透明地评估和完成复杂任务。它还能跨具身类型学习,加速技能学习。
- **Gemini Robotics-ER 1.5** (https://deepmind.google/models/gemini-robotics/gemini-robotics-er/) – 我们最强大的视觉-语言模型 (VLM),可对物理世界进行推理,本机调用数字工具,并创建详细的多步骤计划以完成任务。该模型现已在空间理解基准测试中达到业界领先性能。
这些进展将帮助开发者构建更强大、更多功能的机器人,这些机器人可以主动理解环境,以通用方式完成复杂的多步骤任务。
从今天开始,我们通过 Gemini API 在 [Google AI Studio](https://aistudio.google.com/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=/) 为开发者提供 Gemini Robotics-ER 1.5。Gemini Robotics 1.5 目前仅向精选合作伙伴开放。详情请参阅开发者博客中关于[使用 Gemini Robotics-ER 1.5 构建下一代物理代理](https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-1-5/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=/)的文章。
## Gemini Robotics 1.5:为物理任务解锁代理体验
大多数日常任务都需要上下文信息和多个步骤才能完成,这对当今的机器人来说是极具挑战性的。
例如,如果要求机器人"根据我所在的位置,你能否将这些物品分别放入正确的堆肥、回收和垃圾箱?",它需要在互联网上搜索相关的本地回收指南,查看面前的物品,并根据这些规则弄清楚如何分类 — 然后执行完全将它们放好所需的所有步骤。因此,为了帮助机器人完成这些复杂的多步骤任务,我们在代理框架中设计了两个协同工作的模型。
我们的具身推理模型 Gemini Robotics-ER 1.5 就像高级大脑一样,协调机器人的活动。该模型擅长在物理环境中进行规划和逻辑决策。它拥有业界领先的空间理解能力,能进行自然语言交互,评估成功和进度,并可以本机调用 [Google Search](https://search.google/intl/en-GB/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=/) 等工具来查找信息或使用任何第三方用户定义的函数。
Gemini Robotics-ER 1.5 然后为 Gemini Robotics 1.5 提供每个步骤的自然语言指令,后者利用其视觉和语言理解能力直接执行特定动作。Gemini Robotics 1.5 还帮助机器人思考其行动,以更好地解决语义复杂的任务,甚至可以用自然语言解释其思考过程 — 使其决策更加透明。
该图展示了我们的具身推理模型 Gemini Robotics-ER 1.5 和视觉-语言-动作模型 Gemini Robotics 1.5 如何积极协作,在物理世界中执行复杂任务。
这两个模型都建立在 Gemini 系列模型的基础之上,并使用不同的数据集进行了微调,以专门化于各自的角色。合并时,它们增强了机器人泛化到更长任务和更多样化环境的能力。
### 理解其环境
Gemini Robotics-ER 1.5 是第一个针对具身推理优化的思考模型。它在学术和内部基准测试中都取得了业界领先的性能,灵感来自我们信任的测试者计划中的真实使用案例。
我们在 15 个学术基准测试上评估了 Gemini Robotics-ER 1.5,包括[具身推理问答 (ERQA)](https://github.com/embodiedreasoning/ERQA) 和 [Point-Bench](https://pointarena.github.io/),衡量模型在指向、图像问答和视频问答方面的性能。
详情请参阅我们的[技术报告](https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf)。
柱状图显示 Gemini Robotics-ER 1.5 与类似模型相比的业界领先性能结果。我们的模型在 15 个学术具身推理基准测试中实现了最高的综合性能,包括 Point-Bench、RefSpatial、RoboSpatial-Pointing、Where2Place、BLINK、CV-Bench、ERQA、EmbSpatial、MindCube、RoboSpatial-VQA、SAT、Cosmos-Reason1、Min Video Pairs、OpenEQA 和 VSI-Bench。
GIF 拼贴画展示了 Gemini Robotics-ER 1.5 的一些功能,包括对象检测和状态估计、分割掩码、指向、轨迹预测以及任务进度估计和成功检测。
## 先思考后行动
视觉-语言-动作模型通常将指令或语言计划直接转化为机器人的运动。Gemini Robotics 1.5 不仅可以转化指令或计划,还可以在采取行动前进行思考。这意味着它可以生成一个内部推理和分析序列(用自然语言表达),以执行需要多个步骤或需要更深层语义理解的任务。
例如,在完成"按颜色分类我的衣物"这样的任务时,下面视频中的机器人在不同级别进行思考。首先,它理解按颜色分类意味着将白色衣物放入白色箱子,其他颜色的衣物放入黑色箱子。然后它思考要采取的步骤,比如拿起红色毛衣并将其放入黑色箱子,以及所涉及的详细动作,比如将毛衣移近以更容易地拿起它。
在这个多层级思考过程中,视觉-语言-动作模型可以决定将更长的任务分解为更简单的更短段落,机器人可以成功执行。它还帮助模型泛化以解决新任务,并对环境中的变化更具鲁棒性。
## 跨具身类型学习
机器人有各种形状和大小,拥有不同的感知能力和不同的自由度,这使得将从一个机器人学到的运动转移到另一个机器人变得困难。
Gemini Robotics 1.5 表现出了跨不同具身类型学习的非凡能力。它可以将从一个机器人学到的运动转移到另一个机器人,无需针对每个新具身类型专门化模型。这一突破加速了新行为的学习,帮助机器人变得更聪明、更有用。
例如,我们观察到仅在 [ALOHA 2](https://aloha-2.github.io/) 机器人训练期间呈现的任务,也能在 Apptronik 的人形机器人 [Apollo](https://apptronik.com/apollo) 和双臂 [Franka](https://franka.de/franka-research-3-arm) 机器人上工作,反之亦然。
## 我们如何负责任地推进 AI 和机器人技术
随着我们释放具身 AI 的全部潜力,我们正在积极开发新颖的安全和对齐方法,以使代理 AI 机器人能够在以人为中心的环境中负责任地部署。
我们的责任与安全委员会 (RSC) 和负责任发展与创新 (ReDI) 团队与机器人团队合作,确保这些模型的开发符合我们的 [AI 原则](https://ai.google/principles/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=/)。
Gemini Robotics 1.5 通过高级语义推理实现了整体安全方法,包括在采取行动前考虑安全问题、通过与现有 [Gemini 安全政策](https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf)的对齐确保与人类的尊重对话,以及在需要时在机器人上触发低级安全子系统(例如碰撞避免)。
为了指导我们 Gemini Robotics 模型的安全开发,我们还发布了 [ASIMOV 基准](http://asimov-benchmark.github.io/v2) 的升级版本,这是一个用于评估和改进语义安全的综合数据集集合,具有更好的尾部覆盖、改进的注释、新的安全问题类型和新的视频模态。
在我们对 [ASIMOV 基准](http://asimov-benchmark.github.io/v2) 的安全评估中,Gemini Robotics-ER 1.5 表现出业界领先的性能,其思考能力显著有助于改进对语义安全的理解和更好地遵守物理安全约束。
详情请参阅我们的[技术报告](https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf)或访问我们的[安全网站](https://deepmind.google/models/gemini-robotics/responsibly-advancing-ai-and-robotics/)。
## 在物理世界中解决 AGI 的里程碑
Gemini Robotics 1.5 是在物理世界中解决 AGI 的一个重要里程碑。通过引入代理能力,我们超越了被动响应命令的模型,创造了真正能够推理、规划、主动使用工具和泛化的系统。
这是朝着构建能够以智能和灵巧方式应对物理世界复杂性的机器人迈出的基础性一步,最终成为更有帮助的机器人并融入我们的生活。
我们期待与更广泛的研究社区继续这项工作,并迫不及待地想看到机器人社区用我们最新的 Gemini Robotics-ER 模型开发什么。
**探索 Gemini Robotics 1.5**
**致谢** 这项工作由 Gemini Robotics 团队开发:Abbas Abdolmaleki、Saminda Abeyruwan、Joshua Ainslie、Jean-Baptiste Alayrac、Montserrat Gonzalez Arenas、Ashwin Balakrishna、Nathan Batchelor、Alex Bewley、Jeff Bingham、Michael Bloesch、Konstantinos Bousmalis、Philemon Brakel、Anthony Brohan、Thomas Buschmann、Arunkumar Byravan、Serkan Cabi、Ken Caluwaerts、Federico Casarini、Christine Chan、Oscar Chang、London Chappellet-Volpini、Jose Enrique Chen、Xi Chen、Hao-Tien Lewis Chiang、Krzysztof Choromanski、Adrian Collister、David B. D'Ambrosio、Sudeep Dasari、Todor Davchev、Meet Kirankumar Dave、Coline Devin、Norman Di Palo、Tianli Ding、Carl Doersch、Adil Dostmohamed、Yilun Du、Debidatta Dwibedi、Sathish Thoppay Egambaram、Michael Elabd、Tom Erez、Xiaolin Fang、Claudio Fantacci、Cody Fong、Erik Frey、Chuyuan Fu、Ruiqi Gao、Marissa Giustina、Keerthana Gopalakrishnan、Laura Graesser、Oliver Groth、Agrim Gupta、Roland Hafner、Steven Hansen、Leonard Hasenclever、Sam Haves、Nicolas Heess、Brandon Hernaez、Alex Hofer、Jasmine Hsu、Lu Huang、Sandy H. Huang、Atil Iscen、Mithun George Jacob、Deepali Jain、Sally Jesmonth、Abhishek Jindal、Ryan Julian、Dmitry Kalashnikov、Stefani Karp、Matija Kecman、J. Chase Kew、Donnie Kim、Frank Kim、Junkyung Kim、Thomas Kipf、Sean Kirmani、Ksenia Konyushkova、Yuheng Kuang、Thomas Lampe、Antoine Laurens、Tuan Anh Le、Isabel Leal、Alex X. Lee、Tsang-Wei Edward Lee、Guy Lever、Jacky Liang、Li-Heng Lin、Fangchen Liu、Shangbang Long、Caden Lu、Sharath Maddineni、Anirudha Majumdar、Kevis-Kokitsi Maninis、Andrew Marmon、Sergio Martinez、Assaf Hurwitz Michaely、Niko Milonopoulos、Joss Moore、Robert Moreno、Michael Neunert、Francesco Nori、Joy Ortiz、Kenneth Oslund、Carolina Parada、Emilio Parisotto、Peter Pastor Sampedro、Acorn Pooley、Thomas Power、Alessio Quaglino、Haroon Qureshi、Rajkumar Vasudeva Raju、Helen Ran、Dushyant Rao、Kanishka Rao、Isaac Reid、David Rendleman、Krista Reymann、Miguel Rivas、Francesco Romano、Yulia Rubanova、Pannag R Sanketi、Dhruv Shah、Mohit Sharma、Kathryn Shea、Mohit Shridhar、Charles Shu、Vikas Sindhwani、Sumeet Singh、Radu Soricut、Rachel Sterneck、Ian Storz、Razvan Surdulescu、Jie Tan、Jonathan Tompson、Saran Tunyasuvunakool、Jake Varley、Grace Vesom、Giulia Vezzani、Maria Bauza Villalonga、Oriol Vinyals、René Wagner、Ayzaan Wahid、Stefan Welker、Paul Wohlhart、Chengda Wu、Markus Wulfmeier、Fei Xia、Ted Xiao、Annie Xie、Jinyu Xie、Peng Xu、Sichun Xu、Ying Xu、Zhuo Xu、Jimmy Yan、Sherry Yang、Skye Yang、Yuxiang Yang、Hiu Hong Yu、Wenhao Yu、Li Yang Ku、Wentao Yuan、Yuan Yuan、Jingwei Zhang、Tingnan Zhang、Zhiyuan Zhang、Allan Zhou、Guangyao Zhou 和 Yuxiang Zhou。
我们还要感谢:Amy Nommeots-Nomm、Ashley Gibb、Bhavya Sukhija、Bryan Gale、Catarina Barros、Christy Koh、Clara Barbu、Demetra Brady、Hiroki Furuta、Jennie Lees、Kendra Byrne、Keran Rong、Kevin Murphy、Kieran Connell、Kuang-Huei Lee、M. Emre Karagozler、Martina Zambelli、Matthew Jackson、Michael Noseworthy、Miguel Lázaro-Gredilla、Mili Sanwalka、Mimi Jasarevic、Nimrod Gileadi、Rebeca Santamaria-Fernandez、Rui Yao、Siobhan Mcloughlin、Sophie Bridgers、Stefano Saliceti、Steven Bohez、Svetlana Grant、Tim Hertweck、Verena Rieser 和 Yandong Ji。
感谢以下人士对这项工作的领导和支持:Jean-Baptiste Alayrac、Zoubin Ghahramani、Koray Kavukcuoglu 和 Demis Hassabis。我们认可 Google 和 Google DeepMind 众多团队的贡献,包括法务、营销、传播、责任与安全委员会、负责任发展与创新、政策、战略与运营,以及商业与企业发展团队。我们感谢机器人团队中所有未明确提及的成员的持续支持和指导。最后,我们感谢 Apptronik 团队的支持。
相似文章
Google DeepMind Blog
Google DeepMind 推出 Gemini Robotics,这是一个基于 Gemini 2.0 的视觉-语言-动作模型,可以控制物理机器人,具有更强的通用性、交互性和灵巧性。该公司还推出了用于空间推理的 Gemini Robotics-ER,并与 Apptronik 合作开发人形机器人。
Google DeepMind Blog
Google DeepMind 推出 Gemini Robotics-ER 1.6,这是一款专注于提升机器人具身推理能力的 AI 模型,通过改进空间感知、任务规划和仪器读数能力来实现这一目标。
X AI KOLs
Google DeepMind 发布了 Gemini Robotics-ER 1.6,这是一个升级的模型,具有增强的视觉和空间理解能力,使机器人能够更好地推理和与物理世界互动。
Google DeepMind Blog
Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。
Google DeepMind Blog
Google DeepMind 推出 Gemini Robotics On-Device,这是一个高效的 VLA 模型,可以在机器人设备上本地运行,实现低延迟操作和离线功能,同时保持强大的灵巧操控能力和任务泛化能力。该模型可以通过仅 50-100 个演示进行微调,并附带供开发者使用的 SDK。