@analogalok: Gemma 4 12B QAT（密集）在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT（密集），TurboQ…

X AI KOLs Following 2026/06/18 14:55 模型

gemma-4 qat turboquant 8gb-vram llm-inference dense-model open-source

摘要

Gemma 4 12B QAT（密集）使用TurboQuant在8GB RTX 4060上实现超过1000 tokens/秒的预填充速度，支持120k上下文，实现完整的GPU层卸载。相比之前的方法，预填充速度提升了42%。

Gemma 4 12B QAT（密集）在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT（密集），TurboQuant（无MTP），RTX 4060 8GB显存：预填充：1000+ tok/s（提升42%）解码：25+ tok/s（提升25%）上下文：120k（提升150%）之前在没有TurboQuant的情况下，只有48k上下文时，预填充速度为700 tok/s，解码速度为20 tok/s（旧测试，MTP链接见评论） llama.cpp TurboQuant 标志： -m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf -c 120000 --cache-type-k q8_0 --cache-type-v turbo3 -ngl 99 --port 8080 使用27k提示词和120k上下文进行测试。 -ngl 99 这里不是笔误，完整的12B密集模型，所有层都在GPU上，在8GB显卡上。这才是值得关注的部分。该模型支持视觉、音频输入、思考/推理，并且适合你的8GB显卡。 TurboQuant的KV缓存节省正是释放空间，使其能在120k上下文下实现这一点的原因。与昨天对比：26B A4B MoE达到了320+ tok/s的预填充速度。而这个密集12B达到了1000+ 设备：RTX 4060 8GB · i7H · 16GB RAM 与昨天相同的两个标志，不同模型大小： --cache-type-k q8_0 --cache-type-v turbo3 感谢TheTom/llama-cpp-turboquant，即Tom Turney（@no_stp_on_snek）的TurboQuant分支，使这一切成为可能。 unsloth的模型量化huggingface和llama.cpp分支的github链接见评论对于你的8GB显卡，你更喜欢密集模型还是MoE模型？

查看原文

查看缓存全文

缓存时间: 2026/06/18 16:08

Gemma 4 12B QAT（密集模型）在 8GB 显存、120k 上下文下实现 1000+ tok/s 的预填充速度

Gemma 4 12B QAT（密集模型），TurboQuant（无 MTP），RTX 4060 8GB 显存：

预填充：1000+ tok/s（提升 42%）
解码：25+ tok/s（提升 25%）
上下文长度：120k（提升 150%）

旧版测试（不带 TurboQuant，有 MTP，链接在评论中）的预填充为 700 tok/s，解码为 20 tok/s，上下文仅 48k。

llama.cpp TurboQuant 参数：

-m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf -c 120000 --cache-type-k q8_0 --cache-type-v turbo3 -ngl 99 --port 8080

使用 27k 提示词测试，加载了 120k 上下文。

这里的 -ngl 99 不是笔误——完整 12B 密集模型，每一层都放在 GPU 上，在 8GB 显卡上运行。这是值得细细品味的部分。该模型支持视觉、音频输入、思考/推理，并且能够装入你的 8GB 显卡。

TurboQuant 的 KV 缓存节省释放了空间，使得在 120k 上下文下做到这一点成为可能。

与昨天并列对比：26B A4B MoE 模型实现了 320+ tok/s 预填充。而这款密集 12B 模型突破了 1000+。

设备：RTX 4060 8GB · i7H · 16GB RAM

与昨天相同的两个参数，不同的模型大小：

--cache-type-k q8_0 --cache-type-v turbo3

感谢 TheTom/llama-cpp-turboquant，Tom Turney（@no_stp_on_snek）的 TurboQuant 分支版 llama.cpp 实现了这一效果。

Unsloth 的模型量化 HuggingFace 页面和 llama.cpp 分支版 GitHub 链接均在评论中。

对于你的 8GB 显卡，你更喜欢密集模型还是 MoE 模型？

Alok（@analogalok）： Google 的 Gemma 4 26B A4B QAT 在 8GB 显存（RTX 4060）+ 16GB RAM 上，使用 TurboQuant 达到了 25+ tok/s 解码和 320+ tok/s 预填充。

在同样 8GB 显卡上，预填充从 200 提升到了 320+ tok/s。1.6 倍提升，无需新硬件，无需新量化，只是借助 KV 缓存技巧叠加在 Gemma 上。

@analogalok: Gemma 4 12B QAT（密集）在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT（密集），TurboQ…

相似文章

@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行，拥有 248K Token 上下文窗口，每秒 20 个 Token，上下文窗口大得可以……

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

在12GB显存上使用Gemma 4 12B QAT MTP实现120 tok/s

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Gemma 4 QAT 基准测试结果（AMD 7900 XTX）：速度更快，显存占用更少，质量无损

提交意见反馈