推出 Gemini 2.5 计算机使用模型

Google DeepMind Blog 模型

摘要

Google 通过 Gemini API 发布 Gemini 2.5 计算机使用模型,使开发者能够构建可通过点击、输入和滚动与用户界面交互的 AI 代理。该模型在网页和移动控制基准测试中表现优异,延迟更低,现已在 Google AI Studio 和 Vertex AI 中提供预览版。

我们的计算机使用模型现已通过 API 提供预览版,这是一个基于 Gemini 2.5 Pro 功能构建的专用模型,可用于驱动能够与用户界面交互的代理。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:35

# 介绍 Gemini 2.5 Computer Use 模型 来源:https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-computer-use-model/ 通过 API 提供预览版,我们的 Computer Use 模型是一个专门构建的模型,基于 Gemini 2.5 Pro 的功能,用于支持能够与用户界面交互的智能体。 ## 总体概览 Google 通过 Gemini API 发布 Gemini 2.5 Computer Use 模型,使开发者能够构建可与用户界面交互的智能体。该模型在网页和移动控制基准测试中表现出众,且延迟更低。你现在可以在 Google AI Studio 和 Vertex AI 中访问它,开始构建并在开发者论坛中分享反馈。 摘要由 Google AI 生成。生成式 AI 仍处于实验阶段。 ## Gemini Computer Use 今年早些时候,我们提到(https://www.youtube.com/live/o8NiE3XMPrM?si=9uCZ5JXT0xtGyr1H&t=874)将通过 Gemini API 向开发者提供计算机使用功能。今天,我们发布了 Gemini 2.5 Computer Use 模型(http://ai.google.dev/gemini-api/docs/computer-use),这是一个专门构建的新模型,基于 Gemini 2.5 Pro 的视觉理解和推理能力,能够驱动能与用户界面 (UI) 交互的智能体。它在多个网页和移动控制基准测试中表现领先,同时延迟更低。开发者可以通过 Google AI Studio(http://ai.google.dev/gemini-api/docs/computer-use)和 Vertex AI(https://cloud.google.com/vertex-ai/generative-ai/docs/computer-use)上的 Gemini API 访问这些功能。 虽然 AI 模型可以通过结构化 API 与软件交互,但许多数字任务仍需要直接与图形用户界面交互,例如填充和提交表单。要完成这些任务,智能体必须像人类一样导航网页和应用程序:通过点击、输入和滚动。原生填充表单、操作下拉菜单和过滤器等交互元素以及在登录后面操作的能力是构建强大的通用智能体的关键一步。 ## 工作原理 该模型的核心功能通过 Gemini API 中的新 `computer_use` 工具公开,应在循环内运行。该工具的输入包括用户请求、环境截图和最近操作历史记录。输入也可以指定是否排除完整支持的 UI 操作(http://ai.google.dev/gemini-api/docs/computer-use#supported-actions)列表中的某些功能,或指定要包含的其他自定义功能。 **Gemini 2.5 Computer Use 模型流程** AI 智能体循环图:初始任务导致截图/上下文,发送到模型,模型返回要在计算机环境中执行的操作响应。 模型随后分析这些输入并生成响应,通常是代表 UI 操作(如点击或输入)之一的函数调用。此响应也可能包含终端用户确认的请求,这对于某些操作(如进行购买)是必需的。客户端代码随后执行接收到的操作。 执行操作后,GUI 的新截图和当前 URL 会作为函数响应发送回 Computer Use 模型,重启循环。这个迭代过程会持续到任务完成、出现错误或通过安全响应或用户决定终止交互为止。 Gemini 2.5 Computer Use 模型主要针对网络浏览器进行了优化,但在移动 UI 控制任务方面也表现出强大的前景。目前还未针对桌面操作系统级别的控制进行优化。 查看下面几个演示,看看该模型的实际应用(以 3 倍速度显示)。 **提示:"从 https://tinyurl.com/pet-care-signup 获取任何加州居住的宠物的所有详情,并在我的水疗 CRM https://pet-luxe-spa.web.app/ 中添加为客人。然后,为 Anima Lavar 专家设置 10 月 10 日上午 8 点后的后续访问预约。访问原因与他们请求的治疗相同。"** **提示:"我的艺术俱乐部为我们的艺术博览会进行了任务集思广益。董事会一片混乱,我需要你帮助将任务组织到我创建的某些类别中。访问 sticky-note-jam.web.app(http://sticky-note-jam.web.app/)并确保便签清晰地在正确的部分中。如果不在,请将它们拖到那里。"** ## 性能表现 Gemini 2.5 Computer Use 模型在多个网页和移动控制基准测试中表现出色。下表包含自报数字、Browserbase 进行的评估和我们自己进行的评估的结果。评估详情可在 Gemini 2.5 Computer Use 评估信息(https://storage.googleapis.com/deepmind-media/gemini/computer_use_eval_additional_info.pdf)和 Browserbase 的博客文章(https://www.browserbase.com/blog/evaluating-browser-agents)中获得。除非另有说明,所显示的分数适用于通过 API 公开的 Computer Use 工具。 **Gemini 2.5 Computer Use 在多个基准测试中表现领先** 基准性能表:Gemini 2.5 Computer Use 在 Online-Mind2Web、WebVoyager 和 AndroidWorld 基准测试中领先。 该模型在 Browserbase 工具对 Online-Mind2Web 的测量中以最低延迟提供浏览器控制的领先质量。 **Gemini 2.5 Computer Use 在维持低延迟的同时保持高准确性** 延迟与质量散点图:Gemini 2.5 Computer Use 的延迟最低,准确性最高(70% 以上准确性,约 225 秒延迟)。 ## 安全方法 我们相信,构建惠及所有人的智能体的唯一方式就是从一开始就负责任地行动。控制计算机的 AI 智能体引入了独特的风险,包括用户的故意滥用、意外的模型行为,以及网络环境中的提示注入和诈骗。因此,必须谨慎实施安全护栏。 我们已将安全功能直接训练到模型中,以解决三个关键风险(详见 Gemini 2.5 Computer Use 系统卡(https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf))。 此外,我们还为开发者提供了安全控制,使开发者能够防止模型自动完成可能的高风险或有害操作。这些操作的示例包括危害系统完整性、损害安全性、绕过验证码或控制医疗设备。这些控制包括: - **分步安全服务:** 一个模型外的推理时间安全服务,在模型提议的每个操作执行前进行评估。 - **系统指令:** 开发者可以进一步指定智能体在执行特定类型的高风险操作前拒绝或要求用户确认。(文档中的示例(https://ai.google.dev/gemini-api/docs/computer-use#safety-security))。 有关安全措施和最佳实践的其他建议可在我们的文档(https://ai.google.dev/gemini-api/docs/computer-use#safety-best-practices)中找到。虽然这些防护措施旨在降低风险,但我们敦促所有开发者在推出前彻底测试他们的系统。 ## 早期测试者的使用方式 Google 团队已经在生产中部署了该模型,用于 UI 测试等用例,这可以使软件开发显著加快。该模型的版本也已经在支持 Project Mariner(https://deepmind.google/models/project-mariner/)、Firebase Testing Agent(https://firebase.blog/posts/2025/04/app-testing-agent/)以及 Search 中的 AI Mode(https://blog.google/products/search/ai-mode-agentic-personalized/)的一些智能体功能。 我们早期访问计划中的用户也在测试该模型以支持个人助手、工作流自动化和 UI 测试,并取得了强劲的结果。用他们自己的话说: ## 如何开始 从今天开始,该模型在公开预览版中可用,可通过 Google AI Studio 和 Vertex AI 上的 Gemini API 访问。 - **立即尝试:** 在由 Browserbase(http://gemini.browserbase.com/)托管的演示环境中。 - **开始构建:** 深入了解我们的参考(https://github.com/google/computer-use-preview)和文档(http://ai.google.dev/gemini-api/docs/computer-use)(企业用途请参见 Vertex AI 文档(https://cloud.google.com/vertex-ai/generative-ai/docs/computer-use)),学习如何使用 Playwright 在本地构建你自己的智能体循环或使用 Browserbase 在云 VM 中构建。 - **加入社区:** 我们很想看到你构建的东西。在我们的开发者论坛(https://discuss.ai.google.dev/c/gemini-api/4)中分享反馈并帮助指导我们的路线图。 ### 相关故事

相似文章

Gemini 2.5:我们最聪慧的模型进一步升级

Google DeepMind Blog

谷歌发布 Gemini 2.5 系列更新,包括性能改进的 2.5 Pro 和 Flash 模型,新增功能包括 Deep Think(增强型推理模式)、原生音频输出和通过 Project Mariner 实现的计算机使用能力。这些模型现已在 WebDev Arena 和 LMArena 排行榜中领先。

Gemini 2.0 现已向所有人开放

Google DeepMind Blog

Google 宣布通过 API 正式推出 Gemini 2.0 Flash,并推出实验性的 Gemini 2.0 Pro(用于高级编码和推理任务),以及成本高效的 Gemini 2.0 Flash-Lite。所有模型都支持多模态输入和文本输出,并可通过 Google AI Studio、Vertex AI 和 Gemini 应用访问。

Gemini 2.5:我们最智能的AI模型

Google DeepMind Blog

Google推出了Gemini 2.5,这是其最智能的AI模型。Gemini 2.5 Pro Experimental在LMArena基准测试中领先优势显著,并通过改进的思维模型架构展现了增强的推理和编码能力。

推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型

Google DeepMind Blog

Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。

开始使用 Gemini 3 构建

Google DeepMind Blog

Google 发布了 Gemini 3 Pro,这是一款全新的 AI 模型,旨在编程、智能体工作流和多模态推理方面超越之前的版本。该模型可通过 Gemini API、Google AI Studio 以及全新的 Google Antigravity 开发平台使用。