Gemma 4 Unified 即将发布

Reddit r/LocalLLaMA 模型

摘要

llama.cpp 中的一个合并的 PR 实现了一种新的 'Gemma 4 Unified' 模型类型,表明 Google 即将发布一个无 Transformer 的视觉塔模型。

[https://github.com/ggml-org/llama.cpp/pull/24077](https://github.com/ggml-org/llama.cpp/pull/24077)(刚刚合并)缺少描述或任何暗示,但查看代码会发现,它实现了一种新的 “Gemma 4 Unified” 模型类型…… 似乎是 llama.cpp 团队获得了早期访问权限,以便模型发布时获得支持。代码中的一些注释很有意思:“这是一个无 Transformer 的视觉塔,下面的参数是多余的,但为了避免错误而设置”…… 非常好奇 Google 准备发布的这个架构到底是什么。
查看原文

相似文章

推出 Gemma 3

Google DeepMind Blog

Google 推出了 Gemma 3,这是一套轻量级开源模型集合(1B、4B、12B、27B),设计用于在单个 GPU 或 TPU 上运行,支持 140+ 种语言、128k 上下文窗口和多模态功能。这些模型在保持高效性能的同时,性能超越了 Llama 3 和 DeepSeek-V3 等更大的竞品,适合边缘设备部署。

Gemma 4 视觉

Reddit r/LocalLLaMA

Gemma 4 的视觉表现受默认 token 预算过低拖累;在 llama.cpp 中将 --image-max-tokens 提到 2240,可解锁顶尖 OCR 与细节识别,代价是额外占用约 14 GB 显存。

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。