推出 Gemma 3

Google DeepMind Blog 模型

摘要

Google 推出了 Gemma 3,这是一套轻量级开源模型集合(1B、4B、12B、27B),设计用于在单个 GPU 或 TPU 上运行,支持 140+ 种语言、128k 上下文窗口和多模态功能。这些模型在保持高效性能的同时,性能超越了 Llama 3 和 DeepSeek-V3 等更大的竞品,适合边缘设备部署。

你能在单个 GPU 或 TPU 上运行的最强大模型。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:36

# 推出 Gemma 3:最强的单 GPU 或 TPU 运行模型 来源:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-3/ Tris Warkentin Google DeepMind 总监 ## 要点 - Gemma 3 是一系列轻量级、最先进的开源模型,设计用于在设备上运行。 - Gemma 3 在同等规模的模型中性能最佳,非常适合单 GPU 或 TPU 应用。 - Gemma 3 支持 140 多种语言,具有先进的文本和视觉推理能力。 - Gemma 3 包含 128k 令牌的上下文窗口,支持函数调用以处理复杂任务。 - Gemma 3 提供量化版本,可实现更快的性能和降低的计算需求。 摘要由 Google AI 生成。生成式 AI 属于实验性技术。 Gemma 3 徽标在深色背景上的蓝色方框中,配有图标和文本:Vision Language Tasks(视觉语言任务)、140 Languages(140 种语言)、128K Tokens。 Gemma 开源模型系列是我们致力于让人工智能技术易于获取的基础。上个月,我们庆祝了 Gemma 的周年纪念,这是一个重要里程碑——超过 1 亿次下载——以及一个充满活力的社区创建了超过 60,000 个 Gemma 变体。这个 Gemmaverse (https://ai.google.dev/gemma/gemmaverse) 继续激励着我们。 今天,我们推出 Gemma 3,这是一系列轻量级、最先进的开源模型,基于为我们的 Gemini 2.0 模型提供支持的相同研究和技术开发。这些是我们最先进、最便携且开发最负责任的开源模型。它们设计用于快速直接在设备上运行——从手机和笔记本电脑到工作站——帮助开发者在人们需要的任何地方创建 AI 应用。Gemma 3 提供多种尺寸(1B、4B、12B 和 27B),让你可以根据特定的硬件和性能需求选择最佳模型。 在本文中,我们将探讨 Gemma 3 的功能,介绍 ShieldGemma 2,并分享你如何可以加入不断扩大的 Gemmaverse。 ## 开发者可以通过 Gemma 3 使用的新功能 - **使用全球最佳单加速器模型进行构建:** Gemma 3 为其规模提供最先进的性能,在 LMArena 排行榜的初步人类偏好评估中优于 Llama3-405B、DeepSeek-V3 和 o3-mini。这可以帮助你创建可以装入单个 GPU 或 TPU 主机的引人入胜的用户体验。 - **支持 140 种语言全球化:** 构建使用客户语言的应用。Gemma 3 开箱即用支持 35 种以上的语言,并为 140 多种语言提供预训练支持。 - **创建具有先进文本和视觉推理能力的 AI:** 轻松构建可以分析图像、文本和短视频的应用,为交互式和智能应用打开新的可能性¹ (https://blog.google/innovation-and-ai/technology/developers-tools/gemma-3/#footnote-1)。 - **通过扩展的上下文窗口处理复杂任务:** Gemma 3 提供 128k 令牌的上下文窗口,让你的应用能够处理和理解大量信息。 - **使用函数调用创建 AI 驱动的工作流:** Gemma 3 支持函数调用和结构化输出,帮助你自动化任务并构建 Agent 体验。 - **通过量化模型更快交付高性能:** Gemma 3 引入了官方量化版本,在保持高精度的同时减少了模型大小和计算需求。 该图表按 Chatbot Arena Elo 评分对 AI 模型进行排名;较高的分数(顶部数字)表示更高的用户偏好。点表示估计的 NVIDIA H100 GPU 需求。Gemma 3 27B 排名靠前,仅需单个 GPU,而其他模型最多需要 32 个。 标题为"Chatbot Arena Elo Score"的柱状图显示了各种聊天机器人的性能。Gemma 3 27B 以 1338 的分数突出显示。其他聊天机器人包括 DeepSeek R1、DeepSeek v3、o3-mini、Llama3-405B、Mistral Large 和 Gemma 2 27B,分数范围从 1363 到 1220。每个柱下方列出了模型大小,NVIDIA H100 GPU 数量由点网表示,Gemma 3 27B 需要 8 个 GPU。 有关这些功能背后的技术细节的深入讨论以及我们负责任开发方法的全面概述,请参阅 Gemma 3 技术报告 (https://goo.gle/Gemma3Report)。 ## 严格的安全协议以负责任的方式构建 Gemma 3 我们认为开源模型需要仔细的风险评估,我们的方法平衡了创新与安全——根据模型的能力调整测试强度。Gemma 3 的开发包括广泛的数据治理、通过微调与我们的安全政策保持一致以及稳健的基准评估。虽然对更强大模型的彻底测试通常会为评估较弱模型提供参考,但 Gemma 3 增强的 STEM 性能促使我们进行了特定评估,重点关注其在创建有害物质中可能被滥用的情况;评估结果表明风险水平很低。 随着行业开发更强大的模型,集体开发风险适度的安全方法将至关重要。我们将继续学习并逐步完善开源模型的安全实践。 ## 为图像应用提供内置安全性的 ShieldGemma 2 除 Gemma 3 外,我们还推出了 ShieldGemma 2 (https://developers.googleblog.com/en/safer-and-multimodal-responsible-ai-with-gemma/),这是一个基于 Gemma 3 基础构建的强大 4B 图像安全检查器。ShieldGemma 2 为图像安全提供现成的解决方案,在三个安全类别中输出安全标签:危险内容、性露骨和暴力。开发者可以根据他们的安全需求和用户需求进一步自定义 ShieldGemma。ShieldGemma 2 是开源的,旨在提供灵活性和控制,利用 Gemma 3 架构的性能和效率来促进负责任的 AI 开发。 ## 准备好与你已在使用的工具集成 Gemma 3 和 ShieldGemma 2 无缝集成到你现有的工作流中: - **使用你喜爱的工具进行开发:** 支持 Hugging Face Transformers、Ollama、JAX (https://gemma-llm.readthedocs.io/en/latest/)、Keras、PyTorch、Google AI Edge (https://developers.googleblog.com/en/gemma-3-on-mobile-and-web-with-google-ai-edge)、UnSloth (https://unsloth.ai/blog/gemma3)、vLLM 和 Gemma.cpp (https://github.com/google/gemma.cpp),你可以灵活选择最适合你项目的工具。 - **在几秒内开始实验:** 立即访问 Gemma 3 并开始构建。在 Google AI Studio (https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it) 中探索其全部潜力,或通过 Kaggle (https://www.kaggle.com/models/google/gemma-3) 或 Hugging Face (https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d) 下载模型。 - **根据你的具体需求自定义 Gemma 3:** Gemma 3 附带经过改进的代码库 (https://github.com/google-deepmind/gemma),包括高效微调和推理的配方。使用你首选的平台(如 Google Colab (https://colab.research.google.com/)、Vertex AI (https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3) 或甚至你的游戏 GPU)训练和调整模型。 - **按你的方式部署:** Gemma 3 提供多种部署选项,包括 Vertex AI、Cloud Run、Google GenAI API、本地环境和其他平台,让你可以灵活地选择最适合你的应用和基础设施的方案。 - **在 NVIDIA GPU 上体验优化的性能:** NVIDIA 已直接优化了 Gemma 3 模型,确保你在任何大小的 GPU 上(从 Jetson Nano 到最新的 Blackwell 芯片)都能获得最大性能。Gemma 3 现已在 NVIDIA API 目录 (https://build.nvidia.com/google/) 中推出,只需一个 API 调用即可快速原型设计。 - **加速跨多个硬件平台的 AI 开发:** Gemma 3 也针对 Google Cloud TPU 进行了优化,并通过开源 ROCm™ 堆栈与 AMD GPU 集成。对于 CPU 执行,Gemma.cpp (https://github.com/google/gemma.cpp) 提供了直接的解决方案。 ## "Gemmaverse"模型和工具生态 Gemmaverse 是一个由社区创建的 Gemma 模型和工具组成的庞大生态,随时准备为你的创新提供动力和灵感。例如,AI Singapore 的 SEA-LION v3 (https://ai.google.dev/gemma/gemmaverse/sealion) 打破了语言障碍,促进了整个东南亚的交流;INSAIT 的 BgGPT (https://ai.google.dev/gemma/gemmaverse/insait) 是一个先驱性的保加利亚优先大语言模型,展示了 Gemma 支持多种语言的力量;Nexa AI 的 OmniAudio (https://ai.google.dev/gemma/gemmaverse/omniaudio) 展示了设备上 AI 的潜力,为日常设备带来了先进的音频处理能力。 为了进一步促进学术研究突破,我们推出了 Gemma 3 学术计划。学术研究人员可以申请 Google Cloud 积分(每份奖励 10,000 美元)来加速基于 Gemma 3 的研究。申请表今日开放,将保持开放四周。在我们的网站上申请 (https://ai.google.dev/gemma/)。 ## 开始使用 Gemma 3 作为我们持续承诺民主化获取高质量 AI 的一部分,Gemma 3 代表了下一步。准备好探索 Gemma 3 了吗?以下是开始的地方: **即时探索:** - 使用 Google AI Studio (https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it) 在浏览器中以全精度直接尝试 Gemma 3——无需设置。 - 直接从 Google AI Studio 获取 API 密钥,并通过 Google GenAI SDK (https://ai.google.dev/gemini-api/docs/sdks) 使用 Gemma 3。 **自定义和构建:** - 从 Hugging Face (https://huggingface.co/blog/gemma3)、Ollama (https://ollama.com/download) 或 Kaggle (https://www.kaggle.com/models/google/gemma-3) 下载 Gemma 3 模型。 - 使用 Hugging Face 的 Transformers 库或你首选的开发环境轻松微调模型并将其调整到你的独特需求。 **部署和扩展:** - 通过 Vertex AI (https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3) 大规模地将你的自定义 Gemma 3 创意推向市场。 - 使用 Ollama 在 Cloud Run (https://cloud.google.com/run/docs/tutorials/gpu-gemma-with-ollama) 上运行推理。 - 在 NVIDIA API 目录 (https://build.nvidia.com/search?q=gemma) 中开始使用 NVIDIA NIM。

相似文章

Gemma 3n 介绍:开发者指南

Google DeepMind Blog

Google DeepMind 宣布全面发布 Gemma 3n,这是一款面向移动端的多模态 AI 模型,采用 MatFormer 架构,针对设备端效率进行了优化。此次发布包括 E2B 和 E4B 两种变体,它们内存占用低,同时在推理、编程和多语言任务中表现出色。

介绍 Gemma 3 270M:超高效 AI 的紧凑型模型

Google DeepMind Blog

Google 推出 Gemma 3 270M,这是一个拥有 2.7 亿参数的紧凑型模型,专为高效边缘设备 AI 设计,具有强大的指令遵循能力和极致的能效表现(在 Pixel 9 Pro 上进行 25 次对话仅消耗 0.75% 电量)。

google/gemma-4-26B-A4B-it

Hugging Face Models Trending

Google DeepMind 发布 Gemma 4,一系列开放权重的多模态模型,参数量从2.3B到31B,支持文本、图像、视频和音频输入。模型具有256K上下文窗口,MoE和密集架构,增强的推理能力,并针对从移动设备到服务器的部署进行优化。

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。

推出 Gemma 3n 预览版:功能强大、高效、移动优先的 AI

Google DeepMind Blog

Google 推出 Gemma 3n 预览版,这是一个移动优先的开源 AI 模型,针对手机、平板电脑和笔记本电脑上的本地推理进行了优化。该模型采用与高通和联发科等硬件合作伙伴共同开发的新架构,利用分层嵌入等创新技术,在最少内存占用(2-3GB)的情况下实现快速性能,同时支持多模态功能。