[3090] Gemma4 QAT + MTP 快速TPS数据 [TLDR 提升1.2-1.8倍]
摘要
基准测试结果显示,在24GB RTX 3090 GPU上使用QAT和MTP,Gemma 4模型(12B和26B)的每秒token速度提升了1.2-1.8倍。
过去几周对24GB(及以下)显存的“穷人”来说简直是天赐之物。
1. 杀手级模型发布(Gemma 4 / Qwen 3.6)
2. 通过QAT获得免费智能
3. 通过MTP获得额外速度
我们正处于一个转折点:显存不足(24GB及以下)的人实际上不再寒酸了。我之前对Gemma 4 31b以40tok/s运行已经很满意,但现在它达到了70-80tok/s。
难怪3090的价格在上涨。
参考:
- limit=1, OSL=192, concurrency 1, temp=1.0/top_k=64/top_p=0.95, ctx=40960, q8_0 KV cache, parallel=1
- 对于12b,我们分别测试了纯文本和mmproj多模态,速度提升相同。(我特别喜欢的一点是,你实际上可以跟模型对话,几乎在它开始生成响应之前只有一瞬间的延迟。不过还没有TTS。)
• 硬件
- CPU: Intel Core i9-13900H, 14核 / 20线程
- RAM: 62 GiB系统内存, 8 GiB交换空间
- GPU: NVIDIA GeForce RTX 3090, 24 GiB显存
- 驱动/CUDA: NVIDIA驱动 595.71.05, CUDA 13.2
- 操作系统/内核: Ubuntu 24.04-ish, Linux 6.17.0-35-generic
启动配置:llama-server \
-m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf \
--model-draft gemma-4-12B-it-qat-assistant-MTP-Q8_0.gguf \
--spec-type draft-mtp \
--spec-draft-n-max 4 \
--parallel 1 \
--ctx-size 40960 \
--temp 1.0 \
--top-p 0.95 \
--top-k 64 \
--spec-draft-ngl all \
--spec-draft-type-k q8_0 \
--spec-draft-type-v q8_0
更新:对于26b,结果发现最佳n-max为1,可提供1.26倍加速:设置 tok/s 加速比 接受率
━━━━━━━━━ ━━━━━━━━ ━━━━━━━━━ ━━━━━━━━
no MTP 143.01 1.00x -
───────── ──────── ───────── ────────
n-max 1 180.01 1.26x 0.765
───────── ──────── ───────── ────────
n-max 2 175.77 1.23x 0.654
───────── ──────── ───────── ────────
n-max 3 170.37 1.19x 0.576
───────── ──────── ───────── ────────
n-max 4 165.90 1.16x 0.492
───────── ──────── ───────── ────────
n-max 5 155.51 1.09x 0.444
另外,测试内容:11个请求,分别涉及编程、人文、数学、问答、RAG、推理、STEM、写作、多语言、摘要、角色扮演。分配的上下文大小为40960,但提示长度仅约22到1578个token,平均约280。输出目标为每轮--osl 192;有些样本是多轮对话,因此最长完整长度为15轮 * 192 = 2880个生成token,但停止token可能提前结束样本。这项测试旨在快速了解QAT + MTP的潜在影响。完整的上下文和深度网格测试将单独进行。
相似文章
在12GB显存上使用Gemma 4 12B QAT MTP实现120 tok/s
Google的Gemma 4 12B QAT模型通过llama.cpp的多令牌预测(MTP)在12GB GPU上达到120 tok/s。本文提供分步指南以及无MTP的基准对比,显示速度提升2倍。
Gemma 4 QAT 基准测试结果(AMD 7900 XTX):速度更快,显存占用更少,质量无损
一位用户在 AMD 7900 XTX 上对 Google 的 Gemma 4 QAT 模型进行了基准测试,报告显示生成速度提升高达 45%,吞吐量提高 83%,显存占用大幅减少(例如 12B QAT 模型节省 5.7GB),且与标准权重相比质量无损。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
Qwen3.6-35B 与 Gemma4-26B 在 7900 XTX 上的对比
一项详细的基准测试对比了 Radeon 7900 XTX 上的 Qwen3.6-35B 和 Gemma4-26B,结果显示尽管 Gemma 的 token 生成速度较慢,但端到端快了约 20%,原因是 Qwen 因内部推理生成了约两倍的 token。文章建议:在吞吐量受限的批量任务中使用 Qwen,在延迟敏感的单次请求中使用 Gemma。
你对Gemma4 QAT的体验如何?
用户分享了使用Gemma4 QAT模型的积极体验,提到质量提升和MTP带来的速度增益,并询问其他人的体验。