@analogalok: Gemma 4 12B QAT(密集)在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT(密集),TurboQ…
摘要
Gemma 4 12B QAT(密集)使用TurboQuant在8GB RTX 4060上实现超过1000 tokens/秒的预填充速度,支持120k上下文,实现完整的GPU层卸载。相比之前的方法,预填充速度提升了42%。
查看缓存全文
缓存时间: 2026/06/18 16:08
Gemma 4 12B QAT(密集模型)在 8GB 显存、120k 上下文下实现 1000+ tok/s 的预填充速度
Gemma 4 12B QAT(密集模型),TurboQuant(无 MTP),RTX 4060 8GB 显存:
- 预填充:1000+ tok/s(提升 42%)
- 解码:25+ tok/s(提升 25%)
- 上下文长度:120k(提升 150%)
旧版测试(不带 TurboQuant,有 MTP,链接在评论中)的预填充为 700 tok/s,解码为 20 tok/s,上下文仅 48k。
llama.cpp TurboQuant 参数:
-m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf -c 120000 --cache-type-k q8_0 --cache-type-v turbo3 -ngl 99 --port 8080
使用 27k 提示词测试,加载了 120k 上下文。
这里的 -ngl 99 不是笔误——完整 12B 密集模型,每一层都放在 GPU 上,在 8GB 显卡上运行。这是值得细细品味的部分。该模型支持视觉、音频输入、思考/推理,并且能够装入你的 8GB 显卡。
TurboQuant 的 KV 缓存节省释放了空间,使得在 120k 上下文下做到这一点成为可能。
与昨天并列对比:26B A4B MoE 模型实现了 320+ tok/s 预填充。而这款密集 12B 模型突破了 1000+。
设备:RTX 4060 8GB · i7H · 16GB RAM
与昨天相同的两个参数,不同的模型大小:
--cache-type-k q8_0 --cache-type-v turbo3
感谢 TheTom/llama-cpp-turboquant,Tom Turney(@no_stp_on_snek)的 TurboQuant 分支版 llama.cpp 实现了这一效果。
Unsloth 的模型量化 HuggingFace 页面和 llama.cpp 分支版 GitHub 链接均在评论中。
对于你的 8GB 显卡,你更喜欢密集模型还是 MoE 模型?
Alok(@analogalok): Google 的 Gemma 4 26B A4B QAT 在 8GB 显存(RTX 4060)+ 16GB RAM 上,使用 TurboQuant 达到了 25+ tok/s 解码和 320+ tok/s 预填充。
在同样 8GB 显卡上,预填充从 200 提升到了 320+ tok/s。1.6 倍提升,无需新硬件,无需新量化,只是借助 KV 缓存技巧叠加在 Gemma 上。
相似文章
@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行,拥有 248K Token 上下文窗口,每秒 20 个 Token,上下文窗口大得可以……
Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。
@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE,支持250k上下文。如果你有8GB显存显卡,停下你正在做的事……
Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。
在12GB显存上使用Gemma 4 12B QAT MTP实现120 tok/s
Google的Gemma 4 12B QAT模型通过llama.cpp的多令牌预测(MTP)在12GB GPU上达到120 tok/s。本文提供分步指南以及无MTP的基准对比,显示速度提升2倍。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
Gemma 4 QAT 基准测试结果(AMD 7900 XTX):速度更快,显存占用更少,质量无损
一位用户在 AMD 7900 XTX 上对 Google 的 Gemma 4 QAT 模型进行了基准测试,报告显示生成速度提升高达 45%,吞吐量提高 83%,显存占用大幅减少(例如 12B QAT 模型节省 5.7GB),且与标准权重相比质量无损。