推出 Gemma 4 12B：一个统一的、无编码器的多模态模型

Google DeepMind Blog 2026/06/09 14:10 模型

gemma-4 multimodal encoder-free laptop open-source reasoning audio

摘要

Google DeepMind 宣布推出 Gemma 4 12B，一种新颖的无编码器多模态 AI 模型，将视觉和音频直接集成到 LLM 主干中，在配备 16GB RAM 的笔记本电脑上提供高级推理和代理能力，以 Apache 2.0 许可证发布。

查看原文

查看缓存全文

缓存时间: 2026/06/09 14:46

# 推出 Gemma 4 12B：统一、无编码器的多模态模型来源：https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content= Gemma 4 12B 旨在将高性能多模态智能直接带至您的笔记本电脑，兼顾移动优先效率与高级推理能力。 Gus MartinsGus Martins 产品经理，Google DeepMind Gemma 4 12B 统一 Transformer 您的浏览器不支持音频元素。听文章此内容由 Google AI 生成。生成式 AI 处于实验阶段 \[\[时长\]\] 分钟今天，我们推出 Gemma 4 12B，这是我们最新的模型，旨在将智能体多模态智能直接带入笔记本电脑。这款模型填补了边缘友好的 E4B 与更先进的 26B 混合专家模型（MoE）之间的空白，以更小的内存占用封装了强大的能力。它也是我们首个支持原生音频输入的中等规模模型。感谢开发者社区，Gemma 4 (https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/) 系列模型的下载量现已突破 1.5 亿次。您已用它构建了从用于身体辅助的可穿戴机械臂 (https://www.youtube.com/watch?v=OhaIA3bYwmg) 到企业级 AI 安全方案 (https://deepmind.google/models/gemma/gemmaverse/hirundo/) 的各类应用。我们很期待看到您用这一最新成员构建什么。以下是 Gemma 4 12B 的独特之处概览： - **新颖的统一架构：** 无需多模态编码器。视觉和音频输入直接进入 LLM 主干。 - **先进推理能力：** 基准测试性能接近我们的 26B 模型，解锁强大的多步推理和智能体工作流。 - **笔记本电脑就绪：** 足够小巧，仅需 16GB 显存或统一内存即可本地运行。 - **开放且易获取：** 采用 Apache 2.0 许可证发布，并得到整个开发者生态系统的支持。 - **推测器就绪：** Gemma 4 12B 配备多令牌预测（MTP）推测器，以降低延迟。这些特性共同将先进的多元能力带到日常硬件上，而不牺牲速度或推理能力。现在让我们深入了解 Gemma 4 12B 如何实现这一点。 ### 本地运行最先进的智能体 Gemma 4 12B 在标准基准测试中提供接近我们更大模型 26B MoE 的性能，但总内存占用不到其一半。它足够小巧，可在配备 16GB RAM 的消费级笔记本电脑上本地运行，在您的机器上解锁强大的多模态和智能体体验。 Gemma 4 12B 基准测试 ## 体验独特高效、统一的架构 Gemma 4 12B 脱颖而出的原因在于其处理视觉和音频输入的精简方法。传统的多模态模型通常依赖独立的编码器来转换图像和音频，然后再将这些表示传递给语言模型。由于这种分离的编码器会增加延迟并提高内存使用率，我们训练了 Gemma 4 12B，采用无编码器架构，将音频和视觉输入直接整合。以下是 Gemma 4 12B 原生处理多模态输入的方式： - **视觉：** 我们将 Gemma 4 的视觉编码器替换为一个轻量级嵌入模块，该模块仅包含一次矩阵乘法、位置嵌入和归一化。这使得 LLM 主干能够接管视觉处理。 - **音频：** 我们进一步简化了音频处理。正如你已看到的，我们完全移除了音频编码器，并将原始音频信号投影到与文本令牌相同的维度空间。想了解详细分解的开发者，请移步我们的配套 Gemma 4 12B 开发者指南 (https://developers.googleblog.com/gemma-4-12b-the-developer-guide/). ## 立即开始 - **亲自尝试：** 在 LM Studio (https://lmstudio.ai/models/gemma-4)、Ollama (https://ollama.com/library/gemma4)、Google AI Edge Gallery App (https://developers.google.com/edge/gallery)、Google AI Edge Eloquent (https://ai.google.dev/edge/eloquent) 应用以及 LiteRT-LM CLI (https://ai.google.dev/edge/litert-lm/cli) 中点击几下即可实验。 - **下载权重：** 直接从 Hugging Face (https://huggingface.co/collections/google/gemma-4) 和 Kaggle (https://www.kaggle.com/models/google/gemma-4) 下载预训练和指令调优检查点。 - **集成与学习：** 查阅开发者文档 (https://ai.google.dev/gemma/docs/core) 和快速入门笔记本 (https://ai.google.dev/gemma/docs/capabilities/text/basic)。 - **使用您喜欢的开发工具：** 通过 Hugging Face Transformers (https://huggingface.co/google/gemma-4-12B-it)、llama.cpp (https://huggingface.co/collections/ggml-org/gemma-4)、MLX (https://huggingface.co/collections/mlx-community/gemma-4)、SGLang (https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4) 和 vLLM (https://docs.vllm.ai/projects/recipes/en/latest/Google/Gemma4.html) 实现本地推理管线，或使用 Unsloth (https://unsloth.ai/docs/models/gemma-4) 高效微调。 - **通过 Gemma Skills 解锁智能体开发：** 为支持智能体利用最新的 Gemma 进展进行构建，我们发布了官方的 Skills 仓库 (https://github.com/google-gemma/gemma-skills)。这是一个专门设计用于让智能体能够使用 Gemma 模型进行构建的技能库。 - **按您的方式部署：** 使用 Google Cloud 在生产环境中启动端点。通过 Gemini Enterprise Agent Platform Model Garden (https://console.cloud.google.com/agent-platform/publishers/google/model-garden/gemma4;publisherModelVersion=gemma-4-12b-it)、Cloud Run (https://codelabs.developers.google.com/codelabs/cloud-run/cloud-run-gpu-rtx-pro-6000-gemma4-vllm) 和 GKE (https://docs.cloud.google.com/kubernetes-engine/docs/tutorials/serve-gemma-gpu-vllm) 进行部署。 ### 相关故事

推出 Gemma 4 12B：一个统一的、无编码器的多模态模型

相似文章

@googleaidevs: 我们正在发布Gemma 4 12B：这是一款统一的、无编码器的模型，将强大的多模态智能直接带到您的笔记本电脑上。

Google Gemma 4 12B

google/gemma-4-31B-it-assistant

@mtschannen：过去几年，我的研究重点是跨模态统一模型与训练范式。今天我很激动……

Gemma 4 发布：前沿多模态智能，端侧可用

提交意见反馈