推出 Gemma 4 12B:一个统一的、无编码器的多模态模型

Google DeepMind Blog 模型

摘要

Google DeepMind 宣布推出 Gemma 4 12B,一种新颖的无编码器多模态 AI 模型,将视觉和音频直接集成到 LLM 主干中,在配备 16GB RAM 的笔记本电脑上提供高级推理和代理能力,以 Apache 2.0 许可证发布。

查看原文
查看缓存全文

缓存时间: 2026/06/09 14:46

# 推出 Gemma 4 12B:统一、无编码器的多模态模型 来源:https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content= Gemma 4 12B 旨在将高性能多模态智能直接带至您的笔记本电脑,兼顾移动优先效率与高级推理能力。 Gus MartinsGus Martins 产品经理,Google DeepMind Gemma 4 12B 统一 Transformer 您的浏览器不支持音频元素。 听文章 此内容由 Google AI 生成。生成式 AI 处于实验阶段 \[\[时长\]\] 分钟 今天,我们推出 Gemma 4 12B,这是我们最新的模型,旨在将智能体多模态智能直接带入笔记本电脑。这款模型填补了边缘友好的 E4B 与更先进的 26B 混合专家模型(MoE)之间的空白,以更小的内存占用封装了强大的能力。它也是我们首个支持原生音频输入的中等规模模型。 感谢开发者社区,Gemma 4 (https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/) 系列模型的下载量现已突破 1.5 亿次。您已用它构建了从用于身体辅助的 可穿戴机械臂 (https://www.youtube.com/watch?v=OhaIA3bYwmg) 到企业级 AI 安全方案 (https://deepmind.google/models/gemma/gemmaverse/hirundo/) 的各类应用。我们很期待看到您用这一最新成员构建什么。 以下是 Gemma 4 12B 的独特之处概览: - **新颖的统一架构:** 无需多模态编码器。视觉和音频输入直接进入 LLM 主干。 - **先进推理能力:** 基准测试性能接近我们的 26B 模型,解锁强大的多步推理和智能体工作流。 - **笔记本电脑就绪:** 足够小巧,仅需 16GB 显存或统一内存即可本地运行。 - **开放且易获取:** 采用 Apache 2.0 许可证发布,并得到整个开发者生态系统的支持。 - **推测器就绪:** Gemma 4 12B 配备多令牌预测(MTP)推测器,以降低延迟。 这些特性共同将先进的多元能力带到日常硬件上,而不牺牲速度或推理能力。现在让我们深入了解 Gemma 4 12B 如何实现这一点。 ### 本地运行最先进的智能体 Gemma 4 12B 在标准基准测试中提供接近我们更大模型 26B MoE 的性能,但总内存占用不到其一半。它足够小巧,可在配备 16GB RAM 的消费级笔记本电脑上本地运行,在您的机器上解锁强大的多模态和智能体体验。 Gemma 4 12B 基准测试 ## 体验独特高效、统一的架构 Gemma 4 12B 脱颖而出的原因在于其处理视觉和音频输入的精简方法。传统的多模态模型通常依赖独立的编码器来转换图像和音频,然后再将这些表示传递给语言模型。由于这种分离的编码器会增加延迟并提高内存使用率,我们训练了 Gemma 4 12B,采用无编码器架构,将音频和视觉输入直接整合。 以下是 Gemma 4 12B 原生处理多模态输入的方式: - **视觉:** 我们将 Gemma 4 的视觉编码器替换为一个轻量级嵌入模块,该模块仅包含一次矩阵乘法、位置嵌入和归一化。这使得 LLM 主干能够接管视觉处理。 - **音频:** 我们进一步简化了音频处理。正如你已看到的,我们完全移除了音频编码器,并将原始音频信号投影到与文本令牌相同的维度空间。 想了解详细分解的开发者,请移步我们的配套 Gemma 4 12B 开发者指南 (https://developers.googleblog.com/gemma-4-12b-the-developer-guide/). ## 立即开始 - **亲自尝试:** 在 LM Studio (https://lmstudio.ai/models/gemma-4)、Ollama (https://ollama.com/library/gemma4)、Google AI Edge Gallery App (https://developers.google.com/edge/gallery)、Google AI Edge Eloquent (https://ai.google.dev/edge/eloquent) 应用以及 LiteRT-LM CLI (https://ai.google.dev/edge/litert-lm/cli) 中点击几下即可实验。 - **下载权重:** 直接从 Hugging Face (https://huggingface.co/collections/google/gemma-4) 和 Kaggle (https://www.kaggle.com/models/google/gemma-4) 下载预训练和指令调优检查点。 - **集成与学习:** 查阅 开发者文档 (https://ai.google.dev/gemma/docs/core) 和 快速入门笔记本 (https://ai.google.dev/gemma/docs/capabilities/text/basic)。 - **使用您喜欢的开发工具:** 通过 Hugging Face Transformers (https://huggingface.co/google/gemma-4-12B-it)、llama.cpp (https://huggingface.co/collections/ggml-org/gemma-4)、MLX (https://huggingface.co/collections/mlx-community/gemma-4)、SGLang (https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4) 和 vLLM (https://docs.vllm.ai/projects/recipes/en/latest/Google/Gemma4.html) 实现本地推理管线,或使用 Unsloth (https://unsloth.ai/docs/models/gemma-4) 高效微调。 - **通过 Gemma Skills 解锁智能体开发:** 为支持智能体利用最新的 Gemma 进展进行构建,我们发布了官方的 Skills 仓库 (https://github.com/google-gemma/gemma-skills)。这是一个专门设计用于让智能体能够使用 Gemma 模型进行构建的技能库。 - **按您的方式部署:** 使用 Google Cloud 在生产环境中启动端点。通过 Gemini Enterprise Agent Platform Model Garden (https://console.cloud.google.com/agent-platform/publishers/google/model-garden/gemma4;publisherModelVersion=gemma-4-12b-it)、Cloud Run (https://codelabs.developers.google.com/codelabs/cloud-run/cloud-run-gpu-rtx-pro-6000-gemma4-vllm) 和 GKE (https://docs.cloud.google.com/kubernetes-engine/docs/tutorials/serve-gemma-gpu-vllm) 进行部署。 ### 相关故事

相似文章

Google Gemma 4 12B

Product Hunt

谷歌的 Gemma 4 12B 模型通过无编码器架构实现本地多模态AI。

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。