@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

X AI KOLs Timeline 2026/06/07 11:23 工具

local-ai quantization gguf mixture-of-experts llama-cpp gemma-4 vram-optimization

摘要

Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志，在8GB显存上运行Gemma 4 26B MoE，实现了250k上下文下20 token/秒的速度，这标志着廉价本地AI的一个重要里程碑。

在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文如果你有8GB显存显卡，停下你正在做的事。本地AI刚刚迎来了针对廉价硬件的绝对“天哪”时刻。昨天，我在一张8GB显卡上对Unsloth Gemma 4 12B Q4_K_XL进行了基准测试。社区沸腾了，但立刻要求更多：“我们能在廉价GPU上运行25B+模型吗？” 今天，我正好兑现这个承诺。我正在一台标准8GB显存设备上本地运行一个庞大的26B参数混合专家（MoE）模型，支持250k完整原生上下文！如果你拥有RTX 3060、3070、4060或任何8GB显存的廉价GPU，本地AI的范式已经彻底改变。性能指标令人震惊： - 20 token/秒的稳定解码吞吐量。 - 即使面对超长提示，解码速度也稳定不变。 - 我向它扔了一个60k token的提示，它仍然以20 TPS的速度运行，没有掉帧。 # 预填充呢？是的，当吞入大量上下文时，首词生成时间（TTFT）略高。但凭借200 token/秒的稳定预填充速度，等待几乎不可察觉，而且非常可用。这是在完全未启用多token预测（MTP）的情况下运行的。这是怎么做到的？这是Google为Gemma 4全新推出的QAT（量化感知训练）量化的魔法。模型权重文件（unsloth gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf）仅有13.2 GB，使其成为终极的本地性能猛兽。 # 测试设置： CPU：Intel Core i7 RAM：16GB系统内存 GPU：NVIDIA GeForce RTX 4060 笔记本GPU（8GB显存） # 秘诀（-cmoe标志）要在任何8GB显卡上正常工作，你必须在llama.cpp中使用-cmoe（CPU MoE）标志。该标志将繁重的MoE专家权重直接隔离到系统内存（CPU/RAM），同时让GPU专注于注意力层和KV缓存。它可以防止显存溢出，并保持吞吐量稳定。 # 命令标志： -m "gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf" -cmoe -c 248000 -v 运行后，只需打开localhost上的UI，点击文本输入框中的新推理灯泡图标，即可观察模型进行多步思考。你还在运行较小的模型吗？还是准备扩展你的廉价本地设置？让我们在回复中讨论。

查看原文

查看缓存全文

缓存时间: 2026/06/08 03:15

在 8GB 显存上以 20+ tokens/秒的速度运行 Gemma 4 26B MoE，并支持 250k 上下文

如果你手头有任意一款 8GB 显存的显卡，请停下手头的工作。对于预算级硬件来说，本地 AI 刚刚迎来了它的“Holy Shit”时刻。

昨天，我在 8GB 显存上对 Unsloth Gemma 4 12B Q4_K_XL 进行了基准测试。

社区反响热烈，但立刻就提出了更高的要求：“我们能在预算级 GPU 上运行 25B+ 的模型吗？”

今天，我刚好就做到了这一点。

我正在一台标准 8GB 显存配置的机器上本地运行一个庞大的 26B 参数混合专家（MoE）模型，并支持 250k 完整原生上下文。

如果你拥有 RTX 3060、3070、4060 或任何 8GB 显存的预算级 GPU，本地 AI 的范式已经完全改变了。

性能指标令人惊叹：

20 tokens/秒的固定解码吞吐量
即使在处理超大 prompt 时，解码速度也保持稳定
我向它扔了一个 60k token 的 prompt，它依然以 20 TPS 的速度稳定运行，没有掉一帧

预填充（Prefill）表现如何？

是的，当吞下大量上下文时，首 token 生成时间（TTFT）会稍微偏高。但凭借 200 tokens/秒的稳定预填充速度，等待时间几乎可以忽略，并且非常实用。

而且这些运行数据完全是在没有启用多 token 预测（MTP）的情况下测得的。

这是怎么做到的？这是 Google 为 Gemma 4 推出的全新 QAT（量化感知训练）量化的魔力。

模型权重文件（unsloth gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf）只有 13.2 GB，使其成为终极本地性能猛兽。

测试配置：

CPU：Intel Core i7

内存：16GB 系统内存

GPU：NVIDIA GeForce RTX 4060 笔记本 GPU（8GB 显存）

秘密武器（-cmoe 标志）

要让它在任何 8GB 显卡上正常工作，必须在 llama.cpp 中使用 -cmoe（CPU MoE）标志。

这个标志将繁重的 MoE 专家权重直接隔离到系统内存（CPU/RAM）中，而让 GPU 只专注于注意力层和 KV 缓存。

它可以防止显存溢出，并保持吞吐量稳定。

启动参数：

-m “gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf” -cmoe -c 248000 -v

运行之后，只需打开 localhost 上的 UI，在文本输入框中切换新的推理灯泡图标，即可观察模型执行多步思考。

你还在运行较小的模型，还是已经准备好扩展你的预算级本地部署？欢迎在回复中讨论。

Alok (@analogalok)： 昨天诞生了新的 8GB 显存 GPU 密集本地 LLM 领导者

可在以下设备上运行：RTX 4060 / RTX 3070 / RTX 2080。任何 8GB 显卡

Qwen 3.5 9B（密集）曾是 6-8GB 显存配置的首选。

Gemma 4 12B QAT（密集）刚刚改变了这一点。

相同的 llama.cpp + cuda 13.2。i7 12700H。16GB 内存。相同的 -ngl 99

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

预填充（Prefill）表现如何？

测试配置：

秘密武器（-cmoe 标志）

启动参数：

相似文章

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

在12GB显存上使用Gemma 4 12B QAT MTP实现120 tok/s

运行 gemma-4-26B-A4B 不需要 GPU

@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF，每秒 21 个 token…

昨天在我的3090上跑了gemma 4 12b，我觉得本地模型领域已经变了

提交意见反馈