Gemini Robotics On-Device 将人工智能带到本地机器人设备

Google DeepMind Blog 模型

摘要

Google DeepMind 推出 Gemini Robotics On-Device,这是一个高效的 VLA 模型,可以在机器人设备上本地运行,实现低延迟操作和离线功能,同时保持强大的灵巧操控能力和任务泛化能力。该模型可以通过仅 50-100 个演示进行微调,并附带供开发者使用的 SDK。

我们推出了一个高效的、可在设备上运行的机器人模型,具有通用目的灵活性和快速任务自适应能力。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:35

# Gemini Robotics On-Device 将 AI 引入本地机器人设备 来源:https://deepmind.google/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/ 我们推出了一款高效的本地运行机器人模型,具有通用灵巧度和快速任务适配能力。 在 3 月,我们推出了 [Gemini Robotics](https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/),这是我们最先进的 VLA(视觉语言行动)模型,将 Gemini 2.0 的多模态推理和真实世界理解能力带入物理世界。 今天,我们推出 Gemini Robotics On-Device,这是我们最强大的 VLA 模型,优化为在机器人设备本地运行。Gemini Robotics On-Device 展示了强大的通用灵巧度和任务泛化能力,并优化为在机器人本身上高效运行。 由于该模型独立于数据网络运行,它对延迟敏感的应用非常有帮助,并确保在网络连接间断或完全无网络的环境中保持稳健性。 我们还分享了 [Gemini Robotics SDK](https://github.com/google-deepmind/gemini-robotics-sdk),帮助开发者轻松在自己的任务和环境中评估 Gemini Robotics On-Device,在我们的 [MuJoCo](https://github.com/google-deepmind/aloha_sim) 物理模拟器中测试模型,并快速适配到新领域,只需 50 到 100 个示例即可。开发者可以通过注册我们的受信任测试者计划来获取 SDK 访问权限。 ## 模型能力和性能 Gemini Robotics On-Device 是为双臂机器人设计的机器人基础模型,经过工程优化以最小化计算资源需求。它建立在 Gemini Robotics 的任务泛化和灵巧度能力基础上,具有以下特点: - 为灵巧操作的快速实验而设计。 - 通过微调适配新任务以改进性能。 - 优化为本地低延迟推理运行。 Gemini Robotics On-Device 在广泛的测试场景中实现了强大的视觉、语义和行为泛化能力,能够遵循自然语言指令,并完成高度灵巧的任务,如解开拉链袋或折叠衣物——所有这些都在机器人上直接运行。 在我们的评估中,On-Device 模式展示了强大的泛化性能,同时完全在本地运行。 评估 Gemini Robotics On-Device 泛化性能的图表,与我们的旗舰 Gemini Robotics 模型和之前最好的本地运行模型进行比较。 Gemini Robotics On-Device 在更具挑战性的分布外任务和复杂多步指令上也表现优于其他本地运行替代方案。对于寻求在这些场景中获得最先进结果且不受本地运行限制的开发者,我们也提供 Gemini Robotics 模型。 评估 Gemini Robotics On-Device 指令遵循性能的图表,与我们的旗舰 Gemini Robotics 模型和之前最好的本地运行模型进行比较。 要详细了解我们的评估,请阅读 [Gemini Robotics 技术报告](https://arxiv.org/pdf/2503.20020)。 ## 适配新任务,泛化不同身体形态 Gemini Robotics On-Device 是我们首次提供微调功能的 VLA 模型。虽然许多任务可以开箱即用,但开发者也可以选择调整模型以获得更好的应用性能。我们的模型可以快速适配新任务,只需 50 到 100 个示例——这表明该本地运行模型如何能够将其基础知识泛化到新任务。 在这里,我们展示了 Gemini Robotics On-Device 如何在涉及微调新模型的任务上表现优于当前最好的本地运行 VLA。我们在七个不同难度的灵巧操作任务上测试了该模型,包括拉链午餐盒、抽卡和倒沙拉酱。 展示 Gemini Robotics On-Device 任务适配性能的图表,使用少于 100 个示例。 我们进一步将 Gemini Robotics On-Device 模型适配到不同的机器人身体形态。虽然我们的模型仅针对 [ALOHA 机器人](https://aloha-2.github.io/)进行训练,但我们能够进一步将其适配到双臂 [Franka FR3 机器人](https://franka.de/franka-research-3)和 Apptronik 的 [Apollo 人形机器人](https://apptronik.com/apollo)。 在双臂 Franka 上,该模型执行通用指令跟随,包括处理之前未见过的物体和场景、完成灵巧任务(如折叠连衣裙)或执行需要精度和灵巧度的[工业皮带组装任务](https://www.nist.gov/el/intelligent-systems-division-73500/robotic-grasping-and-manipulation-assembly/assembly)。 在 Apollo 人形机器人上,我们将模型适配到显著不同的身体形态。同一通用模型可以遵循自然语言指令并操纵不同物体,包括之前未见过的物体,以通用方式进行。 ## 负责任的开发和安全 我们遵循 [AI 原则](https://ai.google/principles/?utm_source=&utm_medium=&utm_campaign=&utm_content=)开发所有 Gemini Robotics 模型,并应用涵盖语义和物理安全的[整体安全方法](https://sites.google.com/corp/view/safe-robots)。 在实践中,我们使用 [Live API](https://ai.google.dev/gemini-api/docs/live?utm_source=&utm_medium=&utm_campaign=&utm_content=) 来捕捉语义和内容安全,并将我们的模型与低级安全关键控制器相连接以执行动作。我们建议在我们最近开发的[语义安全基准](https://asimov-benchmark.github.io/)上评估端到端系统,并在所有级别进行[红队测试](https://predictive-red-team.github.io/)以暴露模型的安全漏洞。 我们的负责任开发与创新(ReDI)团队继续分析和建议所有 Gemini Robotics 模型的真实世界影响,寻找方式最大化其社会影响并最小化风险。之后,我们的责任与安全委员会(RSC)审查这些评估,提供反馈以整合到模型开发中,帮助进一步最大化收益并最小化风险。 为了深入了解 Gemini Robotics On-Device 的使用和安全配置,并收集反馈,我们初期向精选的受信任测试者发布。 ## 加速机器人创新 Gemini Robotics On-Device 标志着在使强大机器人模型更易获得和适配方面的进步——我们的本地运行解决方案将帮助机器人社区应对重要的延迟和连接挑战。 Gemini Robotics SDK 将进一步加速创新,允许开发者将模型适配到他们的特定需求。通过我们的[受信任测试者计划](https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986)注册以获取模型和 SDK 访问权限。 我们很期待看到机器人社区将用这些新工具构建什么,同时我们继续探索将 AI 引入物理世界的未来。 **致谢** 我们衷心感谢来自 Abbas Abdolmaleki、Saminda Abeyruwan、Joshua Ainslie、Jean-Baptiste Alayrac、Montserrat Gonzalez Arenas、Travis Armstrong、Maria Attarian、Ashwin Balakrishna、Yanan Bao、Clara Barbu、Catarina Barros、Robert Baruch、Nathan Batchelor、Maria Bauza、Lucas Beyer、Jeff Bingham、Michael Bloesch、Michiel Blokzijl、Steven Bohez、Konstantinos Bousmalis、Demetra Brady、Philemon Brakel、Anthony Brohan、Thomas Buschmann、Arunkumar Byravan、Kendra Byrne、Serkan Cabi、Ken Caluwaerts、Federico Casarini、Christine Chan、Oscar Chang、Jose Enrique Chen、Xi Chen、Huizhong Chen、Hao-Tien Lewis Chiang、Krzysztof Choromanski、Adrian Collister、Kieran Connell、David D'Ambrosio、Sudeep Dasari、Todor Davchev、Coline Devin、Norman Di Palo、Tianli Ding、Adil Dostmohamed、Anca Dragan、Yilun Du、Debidatta Dwibedi、Michael Elabd、Tom Erez、Claudio Fantacci、Cody Fong、Erik Frey、Chuyuan Fu、Frankie Garcia、Ashley Gibb、Marissa Giustina、Keerthana Gopalakrishnan、Laura Graesser、Simon Green、Oliver Groth、Roland Hafner、Leonard Hasenclever、Sam Haves、Nicolas Heess、Brandon Hernaez、Tim Hertweck、Alexander Herzog、R. Alex Hofer、Sandy H Huang、Jan Humplik、Atil Iscen、Mithun George Jacob、Deepali Jain、Sally Jesmonth、Ryan Julian、Dmitry Kalashnikov、M. Emre Karagozler、Stefani Karp、Chase Kew、Jerad Kirkland、Sean Kirmani、Yuheng Kuang、Thomas Lampe、Antoine Laurens、Isabel Leal、Alex X. Lee、Tsang-Wei Edward Lee、Jennie Lees、Jacky Liang、Yixin Lin、Li-Heng Lin、Caden Lu、Sharath Maddineni、Anirudha Majumdar、Kevis-Kokitsi Maninis、Siobhan Mcloughlin、Assaf Hurwitz Michaely、Joss Moore、Robert Moreno、Thomas Mulc、Michael Neunert、Francesco Nori、Dave Orr、Carolina Parada、Emilio Parisotto、Peter Pastor、André Susano Pinto、Acorn Pooley、Grace Popple、Thomas Power、Alessio Quaglino、Haroon Qureshi、Kanishka Rao、Dushyant Rao、Krista Reymann、Martin Riedmiller、Francesco Romano、Keran Rong、Dorsa Sadigh、Stefano Saliceti、Daniel Salz、Pannag Sanketi、Mili Sanwalka、Kevin Sayed、Pierre Sermanet、Dhruv Shah、Mohit Sharma、Kathryn Shea、Mohit Shridhar、Charles Shu、Laurent Simon、Vikas Sindhwani、Sumeet Singh、Radu Soricut、Andreas Steiner、Rachel Sterneck、Ian Storz、Razvan Surdulescu、Ben Swanson、Mitri Syriani、Jie Tan、Yuval Tassa、Alan Thompson、Dhruva Tirumala、Jonathan Tompson、Karen Truong、Jake Varley、Siddharth Verma、Grace Vesom、Giulia Vezzani、Oriol Vinyals、Ayzaan Wahid、Zhicheng Wang、Xiaohan Wang、Stefan Welker、Paul Wohlhart、Chengda Wu、Markus Wulfmeier、Fei Xia、Ted Xiao、Annie Xie、Jinyu Xie、Peng Xu、Sichun Xu、Ying Xu、Zhuo Xu、Yuxiang Yang、KongQun Yang、Rui Yao、Sergey Yaroshenko、Matt Young、Wenhao Yu、Wentao Yuan、Martina Zambelli、Xiaohua Zhai、Jingwei Zhang、Tingnan Zhang、Allan Zhou、Yuxiang Zhou、Guangyao (Stannis) Zhou、Howard Zhou 的贡献、建议和支持。 我们还感谢为该项目执行数据收集和机器人评估的运营和支持人员。 ### Gemini Robotics ### Gemini Robotics On-Device ### Gemini Robotics 1.5 将 AI 代理引入物理世界 ### Gemini Robotics 将 AI 引入物理世界

相似文章

Gemini Robotics 将 AI 引入物理世界

Google DeepMind Blog

Google DeepMind 推出 Gemini Robotics,这是一个基于 Gemini 2.0 的视觉-语言-动作模型,可以控制物理机器人,具有更强的通用性、交互性和灵巧性。该公司还推出了用于空间推理的 Gemini Robotics-ER,并与 Apptronik 合作开发人形机器人。

Gemini Robotics 1.5 将 AI 智能体带入物理世界

Google DeepMind Blog

Google DeepMind 推出 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5,推进了物理 AI 智能体的发展,这些智能体能够感知、规划、思考和行动来完成复杂的多步骤任务。Gemini Robotics-ER 1.5 现已通过 Gemini API 向开发者提供。

推出 Gemini 2.5 计算机使用模型

Google DeepMind Blog

Google 通过 Gemini API 发布 Gemini 2.5 计算机使用模型,使开发者能够构建可通过点击、输入和滚动与用户界面交互的 AI 代理。该模型在网页和移动控制基准测试中表现优异,延迟更低,现已在 Google AI Studio 和 Vertex AI 中提供预览版。