@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE,支持250k上下文。如果你有8GB显存显卡,停下你正在做的事……

X AI KOLs Timeline 工具

摘要

Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。

在8GB显存上以20+ token/秒运行Gemma 4 26B MoE,支持250k上下文 如果你有8GB显存显卡,停下你正在做的事。本地AI刚刚迎来了针对廉价硬件的绝对“天哪”时刻。 昨天,我在一张8GB显卡上对Unsloth Gemma 4 12B Q4_K_XL进行了基准测试。 社区沸腾了,但立刻要求更多:“我们能在廉价GPU上运行25B+模型吗?” 今天,我正好兑现这个承诺。 我正在一台标准8GB显存设备上本地运行一个庞大的26B参数混合专家(MoE)模型,支持250k完整原生上下文! 如果你拥有RTX 3060、3070、4060或任何8GB显存的廉价GPU,本地AI的范式已经彻底改变。 性能指标令人震惊: - 20 token/秒的稳定解码吞吐量。 - 即使面对超长提示,解码速度也稳定不变。 - 我向它扔了一个60k token的提示,它仍然以20 TPS的速度运行,没有掉帧。 # 预填充呢? 是的,当吞入大量上下文时,首词生成时间(TTFT)略高。但凭借200 token/秒的稳定预填充速度,等待几乎不可察觉,而且非常可用。 这是在完全未启用多token预测(MTP)的情况下运行的。 这是怎么做到的?这是Google为Gemma 4全新推出的QAT(量化感知训练)量化的魔法。 模型权重文件(unsloth gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf)仅有13.2 GB,使其成为终极的本地性能猛兽。 # 测试设置: CPU:Intel Core i7 RAM:16GB系统内存 GPU:NVIDIA GeForce RTX 4060 笔记本GPU(8GB显存) # 秘诀(-cmoe标志) 要在任何8GB显卡上正常工作,你必须在llama.cpp中使用-cmoe(CPU MoE)标志。 该标志将繁重的MoE专家权重直接隔离到系统内存(CPU/RAM),同时让GPU专注于注意力层和KV缓存。 它可以防止显存溢出,并保持吞吐量稳定。 # 命令标志: -m "gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf" -cmoe -c 248000 -v 运行后,只需打开localhost上的UI,点击文本输入框中的新推理灯泡图标,即可观察模型进行多步思考。 你还在运行较小的模型吗?还是准备扩展你的廉价本地设置?让我们在回复中讨论。
查看原文
查看缓存全文

缓存时间: 2026/06/08 03:15

在 8GB 显存上以 20+ tokens/秒 的速度运行 Gemma 4 26B MoE,并支持 250k 上下文

如果你手头有任意一款 8GB 显存的显卡,请停下手头的工作。对于预算级硬件来说,本地 AI 刚刚迎来了它的“Holy Shit”时刻。

昨天,我在 8GB 显存上对 Unsloth Gemma 4 12B Q4_K_XL 进行了基准测试。

社区反响热烈,但立刻就提出了更高的要求:“我们能在预算级 GPU 上运行 25B+ 的模型吗?”

今天,我刚好就做到了这一点。

我正在一台标准 8GB 显存配置的机器上本地运行一个庞大的 26B 参数混合专家(MoE)模型,并支持 250k 完整原生上下文。

如果你拥有 RTX 3060、3070、4060 或任何 8GB 显存的预算级 GPU,本地 AI 的范式已经完全改变了。

性能指标令人惊叹:

  • 20 tokens/秒 的固定解码吞吐量
  • 即使在处理超大 prompt 时,解码速度也保持稳定
  • 我向它扔了一个 60k token 的 prompt,它依然以 20 TPS 的速度稳定运行,没有掉一帧

预填充(Prefill)表现如何?

是的,当吞下大量上下文时,首 token 生成时间(TTFT)会稍微偏高。但凭借 200 tokens/秒 的稳定预填充速度,等待时间几乎可以忽略,并且非常实用。

而且这些运行数据完全是在没有启用多 token 预测(MTP)的情况下测得的。

这是怎么做到的?这是 Google 为 Gemma 4 推出的全新 QAT(量化感知训练)量化的魔力。

模型权重文件(unsloth gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf)只有 13.2 GB,使其成为终极本地性能猛兽。

测试配置:

CPU:Intel Core i7

内存:16GB 系统内存

GPU:NVIDIA GeForce RTX 4060 笔记本 GPU(8GB 显存)

秘密武器(-cmoe 标志)

要让它在任何 8GB 显卡上正常工作,必须在 llama.cpp 中使用 -cmoe(CPU MoE)标志。

这个标志将繁重的 MoE 专家权重直接隔离到系统内存(CPU/RAM)中,而让 GPU 只专注于注意力层和 KV 缓存。

它可以防止显存溢出,并保持吞吐量稳定。

启动参数:

-m “gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf” -cmoe -c 248000 -v

运行之后,只需打开 localhost 上的 UI,在文本输入框中切换新的推理灯泡图标,即可观察模型执行多步思考。

你还在运行较小的模型,还是已经准备好扩展你的预算级本地部署?欢迎在回复中讨论。

Alok (@analogalok): 昨天诞生了新的 8GB 显存 GPU 密集本地 LLM 领导者

可在以下设备上运行:RTX 4060 / RTX 3070 / RTX 2080。任何 8GB 显卡

Qwen 3.5 9B(密集)曾是 6-8GB 显存配置的首选。

Gemma 4 12B QAT(密集)刚刚改变了这一点。

相同的 llama.cpp + cuda 13.2。i7 12700H。16GB 内存。相同的 -ngl 99

相似文章

运行 gemma-4-26B-A4B 不需要 GPU

Reddit r/LocalLLaMA

作者展示了在仅使用 CPU 的系统上,通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型,在一台旧台式机上达到了每秒 7 个 token 的速度,这表明运行本地大语言模型推理可能并不需要强大的 GPU。