标签
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
Google 发布了 2026 年 4 月的主要 AI 更新汇总,包括 Gemma 4 模型、Gemini 企业智能体平台以及在 Cloud Next '26 上宣布的第八代 TPU。
Z-lab 发布了 DFlash,这是一种用于 Gemma-4-31B-it 的投机解码草稿模型,采用轻量级块扩散并行生成多个 token,相较于自回归基线实现了最高 5.8 倍的加速。
Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。
Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。
Google DeepMind 的 Model Garden 现已汇集 200 多个领先模型,涵盖刚刚发布的 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3,以及开源的 Gemma 4。
NVIDIA 与 Hugging Face 发布实操演示,展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行,使用本地语音转文字/文字转语音及网络摄像头输入。
个人基准测试显示,Qwen3.5-27B Dense 与 Gemma4-31B Dense 在 37 个失败用例中修复率 100%,即使 8-bit 量化的 Gemma4-26B MoE 也望尘莫及,同时消耗更少 token 与更短挂钟时间。
在 108 k token 的 JS 文件上,Qwen 3.6 35B 实现 283/285 行近乎完美的召回率,碾压 Gemma 4 27B(仅 6/16 通过),并修复了早期 Qwen 的长上下文短板。
用户记录:闭源模型(GPT-4o→5.3、Gemini)在翻译中文小说时质量下滑并自我审查,而本地 Gemma 4 31B 不仅零审查,翻译质量也全面反超。
开发者 Ivan Fioravanti 展示如何在 Apple Silicon 上本地运行 Andrej Karpathy 的 autoresearch 项目,使用 6bit 量化 Gemma-4-26B 模型,暗示已成功训练 Gemma 4 E2B IT 变体。
有用户发现,从 Android 版 Google AI Edge Gallery 提取的 3.6 GB Gemma 4 e4b 模型,比 3.7 GB 的 Unsloth 版本和社区移植版表现更好,引发对谷歌是否暗藏优化的猜测。
Gemma 4 的视觉表现受默认 token 预算过低拖累;在 llama.cpp 中将 --image-max-tokens 提到 2240,可解锁顶尖 OCR 与细节识别,代价是额外占用约 14 GB 显存。
据用户反馈,Google 的 Gemma-4-E2B 本地/离线版本的安全过滤机制过于激进,会拒绝提供急救、饮用水净化及应急设备维护等基础生存知识,这使其完全无法满足无网环境下的应急准备需求。
一个机器学习团队记录了在微调并部署Gemma-4过程中遇到的实际挑战,包括与PEFT、SFTTrainer、DeepSpeed ZeRO-3的不兼容,以及缺乏运行时LoRA服务支持,并提供了每个问题的解决方法。
在 macOS 上使用 Gemma 4 E2B 模型、MLX 和 mlx-vlm 进行音频转录的实用指南,包含 uv run 方法及工作流程演示。
NVIDIA 与谷歌合作优化 Gemma 4 模型,以实现在 RTX GPU、DGX Spark 和 Jetson 设备上的本地部署,从而支持高效的端侧智能体 AI,具备推理、编程、多模态能力以及 35 多种语言的支持。
Google DeepMind 发布 Gemma 4,这是一系列前沿多模态模型,已在 Hugging Face 上以 Apache 2 协议开源,针对端侧部署进行了优化,并支持多种推理框架。
Google DeepMind 发布 Gemma 4,一系列开放权重的多模态模型,参数量从2.3B到31B,支持文本、图像、视频和音频输入。模型具有256K上下文窗口,MoE和密集架构,增强的推理能力,并针对从移动设备到服务器的部署进行优化。