[3090] Gemma4 QAT + MTP 快速TPS数据 [TLDR 提升1.2-1.8倍]

Reddit r/LocalLLaMA 模型

摘要

基准测试结果显示,在24GB RTX 3090 GPU上使用QAT和MTP,Gemma 4模型(12B和26B)的每秒token速度提升了1.2-1.8倍。

过去几周对24GB(及以下)显存的“穷人”来说简直是天赐之物。 1. 杀手级模型发布(Gemma 4 / Qwen 3.6) 2. 通过QAT获得免费智能 3. 通过MTP获得额外速度 我们正处于一个转折点:显存不足(24GB及以下)的人实际上不再寒酸了。我之前对Gemma 4 31b以40tok/s运行已经很满意,但现在它达到了70-80tok/s。 难怪3090的价格在上涨。 参考: - limit=1, OSL=192, concurrency 1, temp=1.0/top_k=64/top_p=0.95, ctx=40960, q8_0 KV cache, parallel=1 - 对于12b,我们分别测试了纯文本和mmproj多模态,速度提升相同。(我特别喜欢的一点是,你实际上可以跟模型对话,几乎在它开始生成响应之前只有一瞬间的延迟。不过还没有TTS。) • 硬件 - CPU: Intel Core i9-13900H, 14核 / 20线程 - RAM: 62 GiB系统内存, 8 GiB交换空间 - GPU: NVIDIA GeForce RTX 3090, 24 GiB显存 - 驱动/CUDA: NVIDIA驱动 595.71.05, CUDA 13.2 - 操作系统/内核: Ubuntu 24.04-ish, Linux 6.17.0-35-generic 启动配置:llama-server \ -m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf \ --model-draft gemma-4-12B-it-qat-assistant-MTP-Q8_0.gguf \ --spec-type draft-mtp \ --spec-draft-n-max 4 \ --parallel 1 \ --ctx-size 40960 \ --temp 1.0 \ --top-p 0.95 \ --top-k 64 \ --spec-draft-ngl all \ --spec-draft-type-k q8_0 \ --spec-draft-type-v q8_0 更新:对于26b,结果发现最佳n-max为1,可提供1.26倍加速:设置 tok/s 加速比 接受率 ━━━━━━━━━ ━━━━━━━━ ━━━━━━━━━ ━━━━━━━━ no MTP 143.01 1.00x - ───────── ──────── ───────── ──────── n-max 1 180.01 1.26x 0.765 ───────── ──────── ───────── ──────── n-max 2 175.77 1.23x 0.654 ───────── ──────── ───────── ──────── n-max 3 170.37 1.19x 0.576 ───────── ──────── ───────── ──────── n-max 4 165.90 1.16x 0.492 ───────── ──────── ───────── ──────── n-max 5 155.51 1.09x 0.444 另外,测试内容:11个请求,分别涉及编程、人文、数学、问答、RAG、推理、STEM、写作、多语言、摘要、角色扮演。分配的上下文大小为40960,但提示长度仅约22到1578个token,平均约280。输出目标为每轮--osl 192;有些样本是多轮对话,因此最长完整长度为15轮 * 192 = 2880个生成token,但停止token可能提前结束样本。这项测试旨在快速了解QAT + MTP的潜在影响。完整的上下文和深度网格测试将单独进行。
查看原文

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。

Qwen3.6-35B 与 Gemma4-26B 在 7900 XTX 上的对比

Reddit r/LocalLLaMA

一项详细的基准测试对比了 Radeon 7900 XTX 上的 Qwen3.6-35B 和 Gemma4-26B,结果显示尽管 Gemma 的 token 生成速度较慢,但端到端快了约 20%,原因是 Qwen 因内部推理生成了约两倍的 token。文章建议:在吞吐量受限的批量任务中使用 Qwen,在延迟敏感的单次请求中使用 Gemma。

你对Gemma4 QAT的体验如何?

Reddit r/LocalLLaMA

用户分享了使用Gemma4 QAT模型的积极体验,提到质量提升和MTP带来的速度增益,并询问其他人的体验。