推出 Gemma 3n 预览版:功能强大、高效、移动优先的 AI
摘要
Google 推出 Gemma 3n 预览版,这是一个移动优先的开源 AI 模型,针对手机、平板电脑和笔记本电脑上的本地推理进行了优化。该模型采用与高通和联发科等硬件合作伙伴共同开发的新架构,利用分层嵌入等创新技术,在最少内存占用(2-3GB)的情况下实现快速性能,同时支持多模态功能。
Gemma 3n 是一个尖端的开源模型,专为设备上的快速多模态 AI 而设计,具有优化的性能、独特的 2-in-1 模型灵活性,以及扩展的多模态理解能力(包括音频支持),使开发者能够构建实时互动应用和复杂的音频中心体验。
查看缓存全文
缓存时间:
2026/04/20 08:35
# 宣布 Gemma 3n 预览版:强大、高效、移动优先的 AI
来源:https://developers.googleblog.com/en/introducing-gemma-3n/
在 Gemma 3 (https://blog.google/technology/developers/gemma-3/) 和 Gemma 3 QAT (https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/) 的成功发布之后,我们的一系列最先进开源模型能够在单个云端或桌面加速器上运行,现在我们正在推进无障碍 AI 的愿景。Gemma 3 为开发者提供了强大的功能,现在我们正在将这一愿景扩展到高效能、实时 AI,使其能够直接在您每天使用的设备上运行——您的手机、平板电脑和笔记本电脑。
为了支持下一代设备端 AI 并支持多种应用,包括推进 Gemini Nano 的功能,我们设计了一个新的、尖端的架构。这个新一代基础是与 Qualcomm Technologies、MediaTek 和三星 System LSI 业务等移动硬件领导者密切合作开发的,并针对闪电般快速的多模态 AI 进行了优化,在您的设备上直接实现真正个人化和隐私的体验。
Gemma 3n (https://deepmind.google/models/gemma/gemma-3n/) 是我们第一个建立在这一突破性共享架构基础上的开源模型,允许开发者从今天开始在早期预览中试验这项技术。同一先进架构也为下一代 Gemini Nano (https://deepmind.google/technologies/gemini/nano/) 提供支持,它将这些功能带到 Google 应用和设备端生态系统中的广泛功能,并将在今年晚些时候推出。Gemma 3n 使您能够开始在这个基础上构建,该基础将支持 Android 和 Chrome 等主要平台。
## Chatbot Arena Elo 评分
该图表按 Chatbot Arena Elo 评分对 AI 模型进行排名;较高的分数(顶部数字)表示用户偏好度更高。Gemma 3n 在热门专有模型和开源模型中排名都很靠前。
Gemma 3n 利用了一项名为"按层嵌入"(Per-Layer Embeddings, PLE) 的 Google DeepMind 创新,可显著降低 RAM 使用量。虽然原始参数数量为 5B 和 8B,但这项创新使您能够在移动设备上运行更大的模型或从云端实时流传输,其内存开销可与 2B 和 4B 模型相媲美,这意味着模型的动态内存占用仅为 2GB 和 3GB。在我们的文档 (https://ai.google.dev/gemma/docs/gemma-3n#parameters) 中了解更多信息。
通过探索 Gemma 3n,开发者可以提前预览开源模型的核心功能和移动优先的架构创新,这些将通过 Gemini Nano 在 Android 和 Chrome 上提供。
在这篇文章中,我们将探讨 Gemma 3n 的新功能、我们负责任的开发方法,以及您如何今天就能访问预览版。
### **Gemma 3n 的主要功能**
Gemma 3n 针对本地运行的快速、低占用空间 AI 体验进行了优化,具有以下特性:
- **优化的设备端性能和效率:** Gemma 3n 在移动设备上的响应速度快约 1.5 倍,质量明显更好(相比 Gemma 3 4B),内存占用减少,通过按层嵌入、KVC 共享和高级激活量化等创新实现。
- **多合一灵活性:** 一个具有 4B 活跃内存占用的模型,原生包含嵌套的最先进 2B 活跃内存占用子模型(得益于 MatFormer (https://arxiv.org/abs/2310.07707) 训练)。这提供了灵活性,可在不托管单独模型的情况下动态调整性能和质量。我们进一步在 Gemma 3n 中引入了混搭功能,可动态地从 4B 模型创建子模型,最优地适应您的特定用例——以及相关的质量/延迟权衡。敬请期待我们即将发布的技术报告中的更多信息。
- **隐私优先和离线就绪:** 本地执行支持尊重用户隐私的功能,即使没有互联网连接也能可靠地运行。
- **扩展的多模态理解与音频:** Gemma 3n 可以理解和处理音频、文本和图像,并提供显著增强的视频理解。其音频功能使模型能够执行高质量的自动语音识别(转录)和翻译(语音到翻译文本)。此外,该模型接受跨模态的交织输入,支持理解复杂的多模态交互。(公开实现即将推出)
- **改进的多语言功能:** 多语言性能改进,特别是在日语、德语、韩语、西班牙语和法语方面。在 WMT24++(ChrF)等多语言基准上的表现强劲,得分为 50.1%。
## MMLU 性能
该图表显示了 Gemma 3n 混搭(预训练)功能的 MMLU 性能对比模型大小。
### **解锁新的移动体验**
Gemma 3n 将通过使开发者能够以下操作,为一波新的智能、移动应用赋能:
1. **构建实时交互体验**,理解并响应来自用户环境的实时视觉和听觉线索。
2. **实现更深层次的理解**和上下文文本生成,使用组合的音频、图像、视频和文本输入——所有处理都在设备端私密进行。
3. **开发高级音频中心应用**,包括实时语音转录、翻译和丰富的语音驱动交互。
以下是您可以构建的体验类型的概览:
### **负责任地构建,携手同行**
我们对负责任的 AI 开发的承诺至关重要。Gemma 3n 与所有 Gemma 模型一样,经历了严格的安全评估、数据治理和与我们安全政策的微调对齐。我们采取谨慎的风险评估方法对待开源模型,并随着 AI 环保境的演变不断完善我们的实践。
### **开始使用:立即预览 Gemma 3n**
我们很高兴从今天开始通过预览为您提供 Gemma 3n:
**初期访问权限(现已推出):**
- **使用 Google AI Studio 进行云端探索:** 直接在您的浏览器上的 Google AI Studio (https://aistudio.google.com/app/prompts/new_chat?model=gemma-3n-e4b-it) 中试用 Gemma 3n——无需设置。立即探索其文本输入功能。
- **使用 Google AI Edge 进行设备端开发:** 对于希望在本地集成 Gemma 3n 的开发者,Google AI Edge (https://developers.googleblog.com/en/google-ai-edge-small-language-models-multimodality-rag-function-calling) 提供工具和库。您今天就可以开始使用文本和图像理解/生成功能。
Gemma 3n 标志着民主化尖端高效 AI 访问权限的下一步。我们非常期待看到您在我们逐步提供这项技术时构建的成果,从今天的预览开始。
在 io.google (https://io.google/2025/?utm_source=blogpost&utm_medium=pr&utm_campaign=event&utm_content=) 上从 5 月 22 日开始探索此公告和所有 Google I/O 2025 更新。
相似文章
Google DeepMind Blog
Google DeepMind 宣布全面发布 Gemma 3n,这是一款面向移动端的多模态 AI 模型,采用 MatFormer 架构,针对设备端效率进行了优化。此次发布包括 E2B 和 E4B 两种变体,它们内存占用低,同时在推理、编程和多语言任务中表现出色。
Google DeepMind Blog
Google 推出 Gemma 3 270M,这是一个拥有 2.7 亿参数的紧凑型模型,专为高效边缘设备 AI 设计,具有强大的指令遵循能力和极致的能效表现(在 Pixel 9 Pro 上进行 25 次对话仅消耗 0.75% 电量)。
Google DeepMind Blog
Google 推出了 Gemma 3,这是一套轻量级开源模型集合(1B、4B、12B、27B),设计用于在单个 GPU 或 TPU 上运行,支持 140+ 种语言、128k 上下文窗口和多模态功能。这些模型在保持高效性能的同时,性能超越了 Llama 3 和 DeepSeek-V3 等更大的竞品,适合边缘设备部署。
Hugging Face Blog
Google DeepMind 发布 Gemma 4,这是一系列前沿多模态模型,已在 Hugging Face 上以 Apache 2 协议开源,针对端侧部署进行了优化,并支持多种推理框架。
Ars Technica
谷歌发布Gemma 4 12B,这是一款紧凑型AI模型,专为仅需16GB RAM的本地笔记本使用而优化,具备多令牌预测以及针对文本、音频和图像的简化多模态能力。