@analogalok: Gemma 4 12B QAT(密集)在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT(密集),TurboQ…

X AI KOLs Following 模型

摘要

Gemma 4 12B QAT(密集)使用TurboQuant在8GB RTX 4060上实现超过1000 tokens/秒的预填充速度,支持120k上下文,实现完整的GPU层卸载。相比之前的方法,预填充速度提升了42%。

Gemma 4 12B QAT(密集)在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT(密集),TurboQuant(无MTP),RTX 4060 8GB显存: 预填充:1000+ tok/s(提升42%) 解码:25+ tok/s(提升25%) 上下文:120k(提升150%) 之前在没有TurboQuant的情况下,只有48k上下文时,预填充速度为700 tok/s,解码速度为20 tok/s(旧测试,MTP链接见评论) llama.cpp TurboQuant 标志: -m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf -c 120000 --cache-type-k q8_0 --cache-type-v turbo3 -ngl 99 --port 8080 使用27k提示词和120k上下文进行测试。 -ngl 99 这里不是笔误,完整的12B密集模型,所有层都在GPU上,在8GB显卡上。这才是值得关注的部分。该模型支持视觉、音频输入、思考/推理,并且适合你的8GB显卡。 TurboQuant的KV缓存节省正是释放空间,使其能在120k上下文下实现这一点的原因。 与昨天对比:26B A4B MoE达到了320+ tok/s的预填充速度。而这个密集12B达到了1000+ 设备:RTX 4060 8GB · i7H · 16GB RAM 与昨天相同的两个标志,不同模型大小: --cache-type-k q8_0 --cache-type-v turbo3 感谢TheTom/llama-cpp-turboquant,即Tom Turney(@no_stp_on_snek)的TurboQuant分支,使这一切成为可能。 unsloth的模型量化huggingface和llama.cpp分支的github链接见评论 对于你的8GB显卡,你更喜欢密集模型还是MoE模型?
查看原文
查看缓存全文

缓存时间: 2026/06/18 16:08

Gemma 4 12B QAT(密集模型)在 8GB 显存、120k 上下文下实现 1000+ tok/s 的预填充速度

Gemma 4 12B QAT(密集模型),TurboQuant(无 MTP),RTX 4060 8GB 显存:

  • 预填充:1000+ tok/s(提升 42%)
  • 解码:25+ tok/s(提升 25%)
  • 上下文长度:120k(提升 150%)

旧版测试(不带 TurboQuant,有 MTP,链接在评论中)的预填充为 700 tok/s,解码为 20 tok/s,上下文仅 48k。

llama.cpp TurboQuant 参数:

-m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf -c 120000 --cache-type-k q8_0 --cache-type-v turbo3 -ngl 99 --port 8080

使用 27k 提示词测试,加载了 120k 上下文。

这里的 -ngl 99 不是笔误——完整 12B 密集模型,每一层都放在 GPU 上,在 8GB 显卡上运行。这是值得细细品味的部分。该模型支持视觉、音频输入、思考/推理,并且能够装入你的 8GB 显卡。

TurboQuant 的 KV 缓存节省释放了空间,使得在 120k 上下文下做到这一点成为可能。

与昨天并列对比:26B A4B MoE 模型实现了 320+ tok/s 预填充。而这款密集 12B 模型突破了 1000+。

设备:RTX 4060 8GB · i7H · 16GB RAM

与昨天相同的两个参数,不同的模型大小:

--cache-type-k q8_0 --cache-type-v turbo3

感谢 TheTom/llama-cpp-turboquant,Tom Turney(@no_stp_on_snek)的 TurboQuant 分支版 llama.cpp 实现了这一效果。

Unsloth 的模型量化 HuggingFace 页面和 llama.cpp 分支版 GitHub 链接均在评论中。

对于你的 8GB 显卡,你更喜欢密集模型还是 MoE 模型?

Alok(@analogalok): Google 的 Gemma 4 26B A4B QAT 在 8GB 显存(RTX 4060)+ 16GB RAM 上,使用 TurboQuant 达到了 25+ tok/s 解码和 320+ tok/s 预填充。

在同样 8GB 显卡上,预填充从 200 提升到了 320+ tok/s。1.6 倍提升,无需新硬件,无需新量化,只是借助 KV 缓存技巧叠加在 Gemma 上。

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。