@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE,支持250k上下文。如果你有8GB显存显卡,停下你正在做的事……
摘要
Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。
查看缓存全文
缓存时间: 2026/06/08 03:15
在 8GB 显存上以 20+ tokens/秒 的速度运行 Gemma 4 26B MoE,并支持 250k 上下文
如果你手头有任意一款 8GB 显存的显卡,请停下手头的工作。对于预算级硬件来说,本地 AI 刚刚迎来了它的“Holy Shit”时刻。
昨天,我在 8GB 显存上对 Unsloth Gemma 4 12B Q4_K_XL 进行了基准测试。
社区反响热烈,但立刻就提出了更高的要求:“我们能在预算级 GPU 上运行 25B+ 的模型吗?”
今天,我刚好就做到了这一点。
我正在一台标准 8GB 显存配置的机器上本地运行一个庞大的 26B 参数混合专家(MoE)模型,并支持 250k 完整原生上下文。
如果你拥有 RTX 3060、3070、4060 或任何 8GB 显存的预算级 GPU,本地 AI 的范式已经完全改变了。
性能指标令人惊叹:
- 20 tokens/秒 的固定解码吞吐量
- 即使在处理超大 prompt 时,解码速度也保持稳定
- 我向它扔了一个 60k token 的 prompt,它依然以 20 TPS 的速度稳定运行,没有掉一帧
预填充(Prefill)表现如何?
是的,当吞下大量上下文时,首 token 生成时间(TTFT)会稍微偏高。但凭借 200 tokens/秒 的稳定预填充速度,等待时间几乎可以忽略,并且非常实用。
而且这些运行数据完全是在没有启用多 token 预测(MTP)的情况下测得的。
这是怎么做到的?这是 Google 为 Gemma 4 推出的全新 QAT(量化感知训练)量化的魔力。
模型权重文件(unsloth gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf)只有 13.2 GB,使其成为终极本地性能猛兽。
测试配置:
CPU:Intel Core i7
内存:16GB 系统内存
GPU:NVIDIA GeForce RTX 4060 笔记本 GPU(8GB 显存)
秘密武器(-cmoe 标志)
要让它在任何 8GB 显卡上正常工作,必须在 llama.cpp 中使用 -cmoe(CPU MoE)标志。
这个标志将繁重的 MoE 专家权重直接隔离到系统内存(CPU/RAM)中,而让 GPU 只专注于注意力层和 KV 缓存。
它可以防止显存溢出,并保持吞吐量稳定。
启动参数:
-m “gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf” -cmoe -c 248000 -v
运行之后,只需打开 localhost 上的 UI,在文本输入框中切换新的推理灯泡图标,即可观察模型执行多步思考。
你还在运行较小的模型,还是已经准备好扩展你的预算级本地部署?欢迎在回复中讨论。
Alok (@analogalok): 昨天诞生了新的 8GB 显存 GPU 密集本地 LLM 领导者
可在以下设备上运行:RTX 4060 / RTX 3070 / RTX 2080。任何 8GB 显卡
Qwen 3.5 9B(密集)曾是 6-8GB 显存配置的首选。
Gemma 4 12B QAT(密集)刚刚改变了这一点。
相同的 llama.cpp + cuda 13.2。i7 12700H。16GB 内存。相同的 -ngl 99
相似文章
在老款GTX 1080(8GB显存,128k上下文)上,约30B的MoE模型达到24+ tok/s的推理速度
一位开发者展示了如何使用llama.cpp,通过MoE卸载和TurboQuant KV缓存量化技术,在老款GTX 1080(8GB显存)上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型,达到24+ tok/s的推理速度,并揭示了针对Gemma MTP投机解码的优化技巧。
在12GB显存上使用Gemma 4 12B QAT MTP实现120 tok/s
Google的Gemma 4 12B QAT模型通过llama.cpp的多令牌预测(MTP)在12GB GPU上达到120 tok/s。本文提供分步指南以及无MTP的基准对比,显示速度提升2倍。
运行 gemma-4-26B-A4B 不需要 GPU
作者展示了在仅使用 CPU 的系统上,通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型,在一台旧台式机上达到了每秒 7 个 token 的速度,这表明运行本地大语言模型推理可能并不需要强大的 GPU。
@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF,每秒 21 个 token…
Google 新推出的 Gemma 4 12B 是一个纯解码器 transformer,采用无编码器的多模态输入,在达到强大基准性能的同时,尺寸足够小,可以在廉价 GPU 上本地运行。它采用 Apache 2.0 许可证发布。
昨天在我的3090上跑了gemma 4 12b,我觉得本地模型领域已经变了
一位用户报告称,通过GGUF量化在单张RTX 3090上本地运行了谷歌的Gemma 4 12B模型,发现其性能强劲,包括真实的256k上下文、多模态能力以及函数调用功能,在编码任务上甚至优于更大的70B模型。