gemma-4

#gemma-4

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA ↗ · 昨天

一项基准测试显示，使用 vLLM 搭配 DFlash 投机解码，在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s，相比基线实现了 2.56 倍的加速。

0 人收藏 0 人点赞

#gemma-4

2026 年 4 月发布的最新 AI 新闻

Google AI Blog ↗ · 4天前缓存

Google 发布了 2026 年 4 月的主要 AI 更新汇总，包括 Gemma 4 模型、Gemini 企业智能体平台以及在 Cloud Next '26 上宣布的第八代 TPU。

0 人收藏 0 人点赞

#gemma-4

z-lab/gemma-4-31B-it-DFlash

Hugging Face Models Trending ↗ · 2026-04-30 缓存

Z-lab 发布了 DFlash，这是一种用于 Gemma-4-31B-it 的投机解码草稿模型，采用轻量级块扩散并行生成多个 token，相较于自回归基线实现了最高 5.8 倍的加速。

0 人收藏 0 人点赞

#gemma-4

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending ↗ · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4 MTP 草稿模型（drafter），适用于 Gemma 4 系列模型，通过推测解码（speculative decoding）实现显著的解码加速，同时保持完全一致的生成质量，适用于低延迟应用场景。

0 人收藏 0 人点赞

#gemma-4

google/gemma-4-31B-it-assistant

Hugging Face Models Trending ↗ · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4，这是一个开源权重的多模态模型家族，支持文本、图像、视频和音频，具备增强的推理和编码能力，并通过多令牌预测（MTP）实现高达 2 倍的解码速度提升。

0 人收藏 0 人点赞

#gemma-4

@GoogleDeepMind：通过 Model Garden 可接入 200+ 全球顶尖模型，包括我们最新发布的突破成果：…

X AI KOLs ↗ · 2026-04-22 缓存

Google DeepMind 的 Model Garden 现已汇集 200 多个领先模型，涵盖刚刚发布的 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3，以及开源的 Gemma 4。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 VLA 在 Jetson Orin Nano Super 上的演示

Hugging Face Blog ↗ · 2026-04-22 缓存

NVIDIA 与 Hugging Face 发布实操演示，展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行，使用本地语音转文字/文字转语音及网络摄像头输入。

0 人收藏 0 人点赞

#gemma-4

个人评测后续：Gemma4 26B MoE（Q8）vs Qwen3.5 27B Dense vs Gemma4 31B Dense 对比

Reddit r/LocalLLaMA ↗ · 2026-04-22

个人基准测试显示，Qwen3.5-27B Dense 与 Gemma4-31B Dense 在 37 个失败用例中修复率 100%，即使 8-bit 量化的 Gemma4-26B MoE 也望尘莫及，同时消耗更少 token 与更短挂钟时间。

0 人收藏 0 人点赞

#gemma-4

YouTuber 用 Qwen 3.5 35B、Qwen 3.6 35B 与 Gemma 4 27B 逆向大型 JS，Qwen 3.6 表现亮眼

Reddit r/LocalLLaMA ↗ · 2026-04-22 缓存

在 108 k token 的 JS 文件上，Qwen 3.6 35B 实现 283/285 行近乎完美的召回率，碾压 Gemma 4 27B（仅 6/16 通过），并修复了早期 Qwen 的长上下文短板。

0 人收藏 0 人点赞

#gemma-4

真实案例：“不跑在本地的模型就不是你的”——Gemma 4 碾压 ChatGPT 与 Gemini

Reddit r/LocalLLaMA ↗ · 2026-04-21

用户记录：闭源模型（GPT-4o→5.3、Gemini）在翻译中文小说时质量下滑并自我审查，而本地 Gemma 4 31B 不仅零审查，翻译质量也全面反超。

0 人收藏 0 人点赞

#gemma-4

@ivanfioravanti：在 M5 Max 上用 oMLX 本地运行 @karpathy 的 autoresearch，借助 6bit 量化的 gemma-4-26b-a4b-it 训练 Gemma 4 E2B……

X AI KOLs Timeline ↗ · 2026-04-21 缓存

开发者 Ivan Fioravanti 展示如何在 Apple Silicon 上本地运行 Andrej Karpathy 的 autoresearch 项目，使用 6bit 量化 Gemma-4-26B 模型，暗示已成功训练 Gemma 4 E2B IT 变体。

0 人收藏 0 人点赞

#gemma-4

谷歌把最好的 Gemma 4 e4b 藏在 Android 里了？提取出的模型碾压 Unsloth 和我试过的所有版本

Reddit r/LocalLLaMA ↗ · 2026-04-21

有用户发现，从 Android 版 Google AI Edge Gallery 提取的 3.6 GB Gemma 4 e4b 模型，比 3.7 GB 的 Unsloth 版本和社区移植版表现更好，引发对谷歌是否暗藏优化的猜测。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 视觉

Reddit r/LocalLLaMA ↗ · 2026-04-21

Gemma 4 的视觉表现受默认 token 预算过低拖累；在 llama.cpp 中将 --image-max-tokens 提到 2240，可解锁顶尖 OCR 与细节识别，代价是额外占用约 14 GB 显存。

0 人收藏 0 人点赞

#gemma-4

Gemma-4-E2B 的安全过滤机制过于严苛，导致其无法用于紧急情况处理

Reddit r/LocalLLaMA ↗ · 2026-04-20

据用户反馈，Google 的 Gemma-4-E2B 本地/离线版本的安全过滤机制过于激进，会拒绝提供急救、饮用水净化及应急设备维护等基础生存知识，这使其完全无法满足无网环境下的应急准备需求。

0 人收藏 0 人点赞

#gemma-4

Gemma-4微调与部署中的挑战与磨难 [P]

Reddit r/MachineLearning ↗ · 2026-04-18

一个机器学习团队记录了在微调并部署Gemma-4过程中遇到的实际挑战，包括与PEFT、SFTTrainer、DeepSpeed ZeRO-3的不兼容，以及缺乏运行时LoRA服务支持，并提供了每个问题的解决方法。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 音频与 MLX

Simon Willison's Blog ↗ · 2026-04-12 缓存

在 macOS 上使用 Gemma 4 E2B 模型、MLX 和 mlx-vlm 进行音频转录的实用指南，包含 uv run 方法及工作流程演示。

0 人收藏 0 人点赞

#gemma-4

从 RTX 到 Spark：NVIDIA 加速 Gemma 4 赋能本地智能体 AI

NVIDIA Blog ↗ · 2026-04-02 缓存

NVIDIA 与谷歌合作优化 Gemma 4 模型，以实现在 RTX GPU、DGX Spark 和 Jetson 设备上的本地部署，从而支持高效的端侧智能体 AI，具备推理、编程、多模态能力以及 35 多种语言的支持。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 发布：前沿多模态智能，端侧可用

Hugging Face Blog ↗ · 2026-04-02 缓存

Google DeepMind 发布 Gemma 4，这是一系列前沿多模态模型，已在 Hugging Face 上以 Apache 2 协议开源，针对端侧部署进行了优化，并支持多种推理框架。

0 人收藏 0 人点赞

#gemma-4

google/gemma-4-26B-A4B-it

Hugging Face Models Trending ↗ · 2026-03-11 缓存

Google DeepMind 发布 Gemma 4，一系列开放权重的多模态模型，参数量从2.3B到31B，支持文本、图像、视频和音频输入。模型具有256K上下文窗口，MoE和密集架构，增强的推理能力，并针对从移动设备到服务器的部署进行优化。

0 人收藏 0 人点赞

gemma-4

提交意见反馈