gemma-4

标签

Cards List
#gemma-4

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA · 昨天

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。

0 人收藏 0 人点赞
#gemma-4

2026 年 4 月发布的最新 AI 新闻

Google AI Blog · 4天前 缓存

Google 发布了 2026 年 4 月的主要 AI 更新汇总,包括 Gemma 4 模型、Gemini 企业智能体平台以及在 Cloud Next '26 上宣布的第八代 TPU。

0 人收藏 0 人点赞
#gemma-4

z-lab/gemma-4-31B-it-DFlash

Hugging Face Models Trending · 2026-04-30 缓存

Z-lab 发布了 DFlash,这是一种用于 Gemma-4-31B-it 的投机解码草稿模型,采用轻量级块扩散并行生成多个 token,相较于自回归基线实现了最高 5.8 倍的加速。

0 人收藏 0 人点赞
#gemma-4

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。

0 人收藏 0 人点赞
#gemma-4

google/gemma-4-31B-it-assistant

Hugging Face Models Trending · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。

0 人收藏 0 人点赞
#gemma-4

@GoogleDeepMind:通过 Model Garden 可接入 200+ 全球顶尖模型,包括我们最新发布的突破成果:…

X AI KOLs · 2026-04-22 缓存

Google DeepMind 的 Model Garden 现已汇集 200 多个领先模型,涵盖刚刚发布的 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3,以及开源的 Gemma 4。

0 人收藏 0 人点赞
#gemma-4

Gemma 4 VLA 在 Jetson Orin Nano Super 上的演示

Hugging Face Blog · 2026-04-22 缓存

NVIDIA 与 Hugging Face 发布实操演示,展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行,使用本地语音转文字/文字转语音及网络摄像头输入。

0 人收藏 0 人点赞
#gemma-4

个人评测后续:Gemma4 26B MoE(Q8)vs Qwen3.5 27B Dense vs Gemma4 31B Dense 对比

Reddit r/LocalLLaMA · 2026-04-22

个人基准测试显示,Qwen3.5-27B Dense 与 Gemma4-31B Dense 在 37 个失败用例中修复率 100%,即使 8-bit 量化的 Gemma4-26B MoE 也望尘莫及,同时消耗更少 token 与更短挂钟时间。

0 人收藏 0 人点赞
#gemma-4

YouTuber 用 Qwen 3.5 35B、Qwen 3.6 35B 与 Gemma 4 27B 逆向大型 JS,Qwen 3.6 表现亮眼

Reddit r/LocalLLaMA · 2026-04-22 缓存

在 108 k token 的 JS 文件上,Qwen 3.6 35B 实现 283/285 行近乎完美的召回率,碾压 Gemma 4 27B(仅 6/16 通过),并修复了早期 Qwen 的长上下文短板。

0 人收藏 0 人点赞
#gemma-4

真实案例:“不跑在本地的模型就不是你的”——Gemma 4 碾压 ChatGPT 与 Gemini

Reddit r/LocalLLaMA · 2026-04-21

用户记录:闭源模型(GPT-4o→5.3、Gemini)在翻译中文小说时质量下滑并自我审查,而本地 Gemma 4 31B 不仅零审查,翻译质量也全面反超。

0 人收藏 0 人点赞
#gemma-4

@ivanfioravanti:在 M5 Max 上用 oMLX 本地运行 @karpathy 的 autoresearch,借助 6bit 量化的 gemma-4-26b-a4b-it 训练 Gemma 4 E2B……

X AI KOLs Timeline · 2026-04-21 缓存

开发者 Ivan Fioravanti 展示如何在 Apple Silicon 上本地运行 Andrej Karpathy 的 autoresearch 项目,使用 6bit 量化 Gemma-4-26B 模型,暗示已成功训练 Gemma 4 E2B IT 变体。

0 人收藏 0 人点赞
#gemma-4

谷歌把最好的 Gemma 4 e4b 藏在 Android 里了?提取出的模型碾压 Unsloth 和我试过的所有版本

Reddit r/LocalLLaMA · 2026-04-21

有用户发现,从 Android 版 Google AI Edge Gallery 提取的 3.6 GB Gemma 4 e4b 模型,比 3.7 GB 的 Unsloth 版本和社区移植版表现更好,引发对谷歌是否暗藏优化的猜测。

0 人收藏 0 人点赞
#gemma-4

Gemma 4 视觉

Reddit r/LocalLLaMA · 2026-04-21

Gemma 4 的视觉表现受默认 token 预算过低拖累;在 llama.cpp 中将 --image-max-tokens 提到 2240,可解锁顶尖 OCR 与细节识别,代价是额外占用约 14 GB 显存。

0 人收藏 0 人点赞
#gemma-4

Gemma-4-E2B 的安全过滤机制过于严苛,导致其无法用于紧急情况处理

Reddit r/LocalLLaMA · 2026-04-20

据用户反馈,Google 的 Gemma-4-E2B 本地/离线版本的安全过滤机制过于激进,会拒绝提供急救、饮用水净化及应急设备维护等基础生存知识,这使其完全无法满足无网环境下的应急准备需求。

0 人收藏 0 人点赞
#gemma-4

Gemma-4微调与部署中的挑战与磨难 [P]

Reddit r/MachineLearning · 2026-04-18

一个机器学习团队记录了在微调并部署Gemma-4过程中遇到的实际挑战,包括与PEFT、SFTTrainer、DeepSpeed ZeRO-3的不兼容,以及缺乏运行时LoRA服务支持,并提供了每个问题的解决方法。

0 人收藏 0 人点赞
#gemma-4

Gemma 4 音频与 MLX

Simon Willison's Blog · 2026-04-12 缓存

在 macOS 上使用 Gemma 4 E2B 模型、MLX 和 mlx-vlm 进行音频转录的实用指南,包含 uv run 方法及工作流程演示。

0 人收藏 0 人点赞
#gemma-4

从 RTX 到 Spark:NVIDIA 加速 Gemma 4 赋能本地智能体 AI

NVIDIA Blog · 2026-04-02 缓存

NVIDIA 与谷歌合作优化 Gemma 4 模型,以实现在 RTX GPU、DGX Spark 和 Jetson 设备上的本地部署,从而支持高效的端侧智能体 AI,具备推理、编程、多模态能力以及 35 多种语言的支持。

0 人收藏 0 人点赞
#gemma-4

Gemma 4 发布:前沿多模态智能,端侧可用

Hugging Face Blog · 2026-04-02 缓存

Google DeepMind 发布 Gemma 4,这是一系列前沿多模态模型,已在 Hugging Face 上以 Apache 2 协议开源,针对端侧部署进行了优化,并支持多种推理框架。

0 人收藏 0 人点赞
#gemma-4

google/gemma-4-26B-A4B-it

Hugging Face Models Trending · 2026-03-11 缓存

Google DeepMind 发布 Gemma 4,一系列开放权重的多模态模型,参数量从2.3B到31B,支持文本、图像、视频和音频输入。模型具有256K上下文窗口,MoE和密集架构,增强的推理能力,并针对从移动设备到服务器的部署进行优化。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈