推出 Gemini 2.0：我们为智能体时代打造的新型 AI 模型

Google DeepMind Blog 2024/12/11 15:30 模型

gemini-2-0 multimodal ai-agents google-deepmind agentic-ai tool-use

摘要

Google DeepMind 推出 Gemini 2.0，这是一款新型智能体 AI 模型，具备原生图像和音频输出、增强的工具使用能力和多模态功能，专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出，计划于 2025 年初实现更广泛的可用性。

今天，我们发布 Gemini 2.0，这是我们迄今为止最强大的多模态 AI 模型。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:36

# Gemini 2.0 简介：面向智能体时代的新型AI模型来源：https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-ai-update-december-2024/ ## 要点 - Google DeepMind 推出 Gemini 2.0，这是为"智能体时代"设计的新型AI模型。 - Gemini 2.0 的能力比以前的版本更强大，具有原生图像和音频输出以及工具使用功能。 - Gemini 2.0 Flash 现已向开发者和受信任的测试者提供，计划于明年初扩大可用范围。 - Google 正在探索使用 Gemini 2.0 的智能体体验，包括 Project Astra、Project Mariner 和 Jules。 - Google 致力于负责任地开发AI，安全和保障是关键优先事项。摘要由 Google AI 生成。生成式AI仍处于实验阶段。背景为未来蓝黑色抽象的"Gemini 2.0"文字本文涵盖内容 - CEO 寄语 (https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message) - Gemini 2.0 简介 (https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0) - Gemini 2.0 Flash (https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash) - Project Astra (https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-ai-update-december-2024/#project-astra) - Project Mariner (https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-ai-update-december-2024/#project-mariner) - 面向开发者的智能体 (https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-ai-update-december-2024/#agents-for-developers) - 游戏中的智能体 (https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents) - 负责任地开发 (https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-ai-update-december-2024/#building-responsibly) **Google 和 Alphabet CEO Sundar Pichai 的寄语：** 信息是人类进步的核心。这就是为什么在过去26年多的时间里，我们一直致力于组织世界信息并使其易于访问和有用的使命。正因为如此，我们继续推进AI的前沿技术，在每一种输入方式上组织信息，并通过任何输出方式提供访问，从而使信息对您真正有用。这正是我们去年12月推出 Gemini 1.0 (https://blog.google/innovation-and-ai/technology/ai/google-gemini-ai/) 的愿景。Gemini 1.0 和 1.5 是首款原生多模态模型，在多模态和长上下文方面取得了重大进展，能够理解跨越文本、视频、图像、音频和代码的信息，并处理更多内容。现在数百万开发者正在使用 Gemini 进行开发。它也在帮助我们重新想象所有产品——包括拥有20亿用户的7款产品——并创造新产品。NotebookLM (https://notebooklm.google/) 是一个很好的例子，展示了多模态和长上下文能为人们带来什么，以及为什么它深受许多用户喜爱。在过去的一年里，我们一直在投资开发更多的智能体模型，这意味着它们能够更好地理解周围世界，能够向前思考多步，并在您的监督下代您采取行动。今天，我们很高兴推出为这个新的智能体时代设计的下一个时代的模型：推介 Gemini 2.0，这是我们迄今为止最强大的模型。凭借多模态方面的新进展——如原生图像和音频输出——以及原生工具使用，它将使我们能够构建新的AI智能体，让我们更接近通用助手的愿景。我们今天就将 2.0 提供给开发者和受信任的测试者。我们正在快速推进将其集成到我们的产品中，首先从 Gemini 和搜索开始。从今天开始，我们的 Gemini 2.0 Flash 实验性模型将对所有 Gemini 用户开放。我们还推出了一项名为 Deep Research (https://blog.google/products/gemini/google-gemini-deep-research/) 的新功能，它利用先进的推理和长上下文能力充当研究助手，探索复杂话题并为您编制报告。它现已在 Gemini Advanced 中可用，您可以在我们的网站 (https://gemini.google/overview/deep-research?utm_source=keywordblog&utm_medium=referral) 上了解更多信息。没有产品比搜索更多地被AI所改变。我们的AI概览现已覆盖10亿人，让他们能够提出全新类型的问题——迅速成为我们最受欢迎的搜索功能之一。下一步，我们将 Gemini 2.0 的高级推理能力引入AI概览，以应对更复杂的话题和多步骤问题，包括高级数学方程、多模态查询和编码。我们本周开始了有限测试，将在明年初更广泛地推出。我们还将在未来一年内继续为更多国家和语言推出AI概览。 2.0的进步得益于十年来在我们差异化的全栈AI创新方法上的投资。它建立在Trillium等定制硬件之上，这是我们第六代TPU。TPU为100% 的 Gemini 2.0 训练和推理提供支持，如今 Trillium 已 (https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga) 正式推出，供客户构建应用。如果说 Gemini 1.0 是关于组织和理解信息，那么 Gemini 2.0 就是关于使信息更加有用。我迫不及待地想看到这个新时代会带来什么。 —Sundar --- ## Gemini 2.0 简介：面向智能体时代的新型AI模型 *Google DeepMind CEO Demis Hassabis 和 Google DeepMind CTO Koray Kavukcuoglu 代表 Gemini 团队* 在过去的一年中，我们在人工智能方面取得了令人难以置信的进步。今天，我们发布 Gemini 2.0 系列模型中的第一个模型：Gemini 2.0 Flash 的实验版本。它是我们的主力模型，具有低延迟和增强的性能，处于我们技术大规模应用的前沿。我们还通过展示由 Gemini 2.0 原生多模态能力支持的原型来分享我们智能体研究的前沿。 ## Gemini 2.0 Flash Gemini 2.0 Flash 建立在 1.5 Flash 的成功基础之上，1.5 Flash 是迄今为止开发者最受欢迎的模型，具有增强的性能和同样快速的响应时间。值得注意的是，2.0 Flash 在关键基准上甚至超过了 1.5 Pro，速度快两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模态输入外，2.0 Flash 现在还支持多模态输出，如原生生成的与文本混合的图像和可控的文本到语音（TTS）多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义的函数等工具。展示 Gemini 模型及其能力对比的图表我们的目标是安全快速地将我们的模型提供给用户。在过去一个月，我们一直在分享 Gemini 2.0 的早期实验版本，获得了来自开发者的很好反馈。 Gemini 2.0 Flash 现作为实验性模型通过 Gemini API 在 Google AI Studio (https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-exp) 和 Vertex AI (https://console.cloud.google.com/vertex-ai/studio/freeform?model=gemini-2.0-flash-exp) 中对开发者可用，所有开发者都可使用多模态输入和文本输出，早期接入合作伙伴可使用文本到语音和原生图像生成。1月份将推出通用版本，以及更多模型尺寸。为了帮助开发者构建动态交互式应用程序，我们还发布了新的 Multimodal Live API，具有实时音频、视频流输入和使用多个组合工具的能力。有关 2.0 Flash 和 Multimodal Live API 的更多信息可在我们的 [开发者博客](https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/) 中找到。 ### Gemini 2.0 在 Gemini 应用中可用，这是我们的AI助手同时从今天开始，全球 [Gemini](https://gemini.google.com/) 用户可以通过在桌面和移动网络上的模型下拉菜单中选择 2.0 Flash 实验版本来访问优化的聊天，它将很快在 Gemini 移动应用中提供。使用这个新模型，用户可以体验更有帮助的 Gemini 助手。明年初，我们将把 Gemini 2.0 扩展到更多 Google 产品中。 ## 使用 Gemini 2.0 解锁智能体体验 Gemini 2.0 Flash 的原生用户界面操作能力，加上多模态推理、长上下文理解、复杂指令遵循和规划、组合函数调用、原生工具使用和改进的延迟等其他改进，共同作用以实现一类新的智能体体验。 AI智能体的实际应用是一个充满令人兴奋可能性的研究领域。我们通过一系列原型来探索这一新的前沿，这些原型可以帮助人们完成任务并取得成果。这些包括 Project Astra 的更新——我们探索通用AI助手未来能力的研究原型；新的 Project Mariner——探索人机交互的未来，从您的浏览器开始；以及 Jules——一个AI驱动的代码智能体，可以帮助开发者。我们仍处于开发的早期阶段，但我们很高兴看到受信任的测试者如何使用这些新功能以及我们能学到什么经验，以便未来能在产品中更广泛地使用它们。 ## Project Astra：在真实世界中使用多模态理解的智能体自从我们在I/O大会上推介 [Project Astra](https://deepmind.google/technologies/gemini/project-astra/) 以来，我们一直在学习受信任的测试者在Android手机上使用它的情况。他们宝贵的反馈帮助我们更好地了解通用AI助手在实践中如何工作，包括对安全和伦理的影响。使用 Gemini 2.0 构建的最新版本的改进包括： - **更好的对话：** Project Astra 现在能够用多种语言和混合语言进行对话，对口音和不常见词汇的理解更好。 - **新的工具使用：** 使用 Gemini 2.0，Project Astra 可以使用 Google 搜索、Lens 和地图，使其在日常生活中作为助手更加有用。 - **更好的记忆：** 我们改进了 Project Astra 的记忆能力，同时让您保持控制。它现在有长达10分钟的会话内记忆，可以记住您过去与其的更多对话，因此更好地个性化以适应您。 - **改进的延迟：** 通过新的流功能和原生音频理解，该智能体能够以接近人类对话的延迟来理解语言。我们正在努力将这些类型的功能带到 Google 产品（如 [Gemini](http://gemini.google.com/) 应用，我们的AI助手）以及其他形式因素（如眼镜）。我们开始扩展受信任的测试者计划，覆盖更多人，包括一小组很快将开始在原型眼镜上测试 Project Astra 的人。 ## Project Mariner：可以帮助您完成复杂任务的智能体 Project Mariner 是用 Gemini 2.0 构建的早期研究原型，探索人机交互的未来，从您的浏览器开始。作为研究原型，它能够理解和推理浏览器屏幕上的信息，包括像素和网络元素（如文本、代码、图像和表单），然后通过实验性 Chrome 扩展程序使用这些信息为您完成任务。在针对 [WebVoyager 基准](https://arxiv.org/abs/2401.13919) 的评估中，该基准测试智能体在端到端真实网络任务上的性能，Project Mariner [取得了83.5%的最先进结果](http://deepmind.google/technologies/project-mariner)，作为单个智能体设置工作。虽然仍处于早期阶段，但 Project Mariner 表明在浏览器内导航在技术上变得可行，尽管今天完成任务时并不总是准确且速度缓慢，但这将随着时间的推移而迅速改进。为了安全负责任地构建它，我们正在进行有关新类型风险和缓解措施的积极研究，同时让人类保持参与。例如，Project Mariner 只能在浏览器的活跃标签页中输入、滚动或点击，它会在用户采取某些敏感操作（如购物）前要求最终确认。受信任的测试者现在开始使用实验性 Chrome 扩展程序测试 Project Mariner，我们也在同时开始与网络生态系统进行对话。 ## Jules：面向开发者的智能体接下来，我们探索AI智能体如何通过 Jules——一个实验性AI驱动的代码智能体来协助开发者，它直接集成到 GitHub 工作流中。它可以处理一个问题、制定计划并执行它，所有这些都在开发者的指导和监督下完成。这项工作是我们长期目标的一部分，即构建在所有领域（包括编码）都有帮助的AI智能体。有关此正在进行的实验的更多信息可在我们的 [开发者博客文章](https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/) 中找到。 ## 游戏和其他领域中的智能体 Google DeepMind 有 [悠久的](https://deepmind.google/discover/blog/agent57-outperforming-the-human-atari-benchmark/) [历史](https://deepmind.google/research/breakthroughs/alphago/) 使用游戏来帮助AI模型更好地遵循规则、规划和逻辑。例如，就在上周，我们推介了 [Genie 2](https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/)，这是我们的AI模型，可以从单个图像创建无限种类的可玩3D世界。以这一传统为基础，我们使用 Gemini 2.0 构建了智能体，可以帮助您在视频游戏的虚拟世界中导航。它可以仅根据屏幕上的动作推理游戏，并在实时对话中提出接下来要做什么的建议。我们与 Supercell 等游领先游戏开发商合作，探索这些智能体如何工作，测试它们在解释规则和从多样化游戏范围中的挑战的能力，从 [《部落冲突》](https://supercell.com/en/games/clashofclans/) 等策略游戏到 [《Hay Day》](https://supercell.com/en/games/hayday/) 等农业模拟游戏。除了充当虚拟游戏伙伴，这些智能体甚至可以利用 Google 搜索来为您提供网络上丰富的游戏知识。除了在虚拟世界中探索智能体能力，我们还尝试通过将 Gemini 2.0 的空间推理能力应用于机器人来帮助物理世界中的智能体。虽然仍处于早期阶段，但我们对智能体在物理环境中提供帮助的潜力感到兴奋。您可以在 [labs.google](http://labs.google/) 了解更多有关这些研究原型和实验的信息。 ## 在智能体时代负责任地进行开发 Gemini 2.0 Flash 和我们的研究原型使我们能够测试和迭代AI研究前沿的新能力，这些能力最终将使Google产品更加有帮助。在开发这些新技术时，我们认识到其中包含的责任以及AI智能体为安全和保障带来的许多问题。这就是为什么我们采取了一种探索性和渐进式的发展方法，对多个原型进行研究，迭代实施安全培训，与受信任的测试者和外部专家合作，并执行广泛的风险评估和安全性及保障评估。例如： - 作为我们安全程序的一部分，我们与我们的责任与安全委员会（RSC）（我们长期以来的内部审查小组）合作，以识别和理解

推出 Gemini 2.0：我们为智能体时代打造的新型 AI 模型

相似文章

借助 Gemini 3.5 Flash，谷歌将下一波 AI 押注在智能体而非聊天机器人上

Gemini API 展示代理型 Gemini 模型

推出 Gemini 2.5 计算机使用模型

Gemini 2.0 现已向所有人开放

Gemini 2.5：我们最聪慧的模型进一步升级

提交意见反馈