Gemma 4 MTP 与 DFlash 在单张 H100 上：密集模型 vs MoE 模型结果

Reddit r/LocalLLaMA 2026/05/12 13:09 新闻

gemma-4 speculative-decoding benchmark h100 ml-inference dense-vs-moe multi-token-prediction

摘要

该基准测试将 Gemma 4 的多 Token 预测 (MTP) 与 z-lab 的 DFlash 推测性解码方法在单张 H100 GPU 上进行了比较，结果显示 MTP 在密集模型上更快，而 DFlash 在 MoE 模型上更快。

在单张 H100 80GB 上，使用 vLLM 和 NVIDIA 的 [SPEED-Bench](https://huggingface.co/datasets/nvidia/SPEED-Bench) 定性数据集，对 Gemma 4 [MTP](https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/) 和 z-lab 的 [DFlash](https://github.com/z-lab/dflash) 进行了基准测试。 # 设置： * 硬件：1x H100 80GB * 运行时：vLLM * 数据集：SPEED-Bench 定性 * 提示：共 880 条，每个类别 80 条，共 11 个类别 * 模型：google/gemma-4-31B-it 和 google/gemma-4-26B-A4B-it * MTP 草稿：Google 相应的 Gemma 4 assistant 模型 * DFlash 草稿：z-lab 相应的 Gemma 4 DFlash 模型 * MTP 使用 num\_speculative\_tokens=8 * DFlash 使用 num\_speculative\_tokens=15 * 上下文长度/最大模型长度：`32768` * 温度：0 * 前缀缓存已禁用 # 结果： * 对于 **Gemma 4 31B 密集模型**，**MTP 快 3.11 倍**，**DFlash 快 3.03 倍**，并发度为 1 时相较于基线解码。基线达到 40.3 输出 tok/s，MTP 达到 125.3 输出 tok/s，DFlash 达到 122.1 输出 tok/s。并发度为 16 时，基线达到 375 tok/s，MTP 达到 953 tok/s，DFlash 达到 725 tok/s。https://preview.redd.it/4zyyt58j7p0h1.png?width=2571&format=png&auto=webp&s=930d3a8383fb7fe40749217867f4f3ab9877b4a4 * 对于 **Gemma 4 26B-A4B MoE**，结果反转。**DFlash 快 1.73 倍**，**MTP 快 1.49 倍**，并发度为 1 时相较于基线解码。基线达到 177.1 输出 tok/s，MTP 达到 264.2 输出 tok/s，DFlash 达到 306.4 输出 tok/s。并发度为 16 时，基线达到 975 tok/s，MTP 达到 1808 tok/s，DFlash 达到 1957 tok/s。 * MoE 的加速比小于密集模型，因为基线 MoE 目标本身的运行成本已经相对较低。Gemma 4 26B-A4B 总参数量为 25.2B，但推理过程中仅激活 3.8B 参数。这意味着与密集的 31B 模型相比，推测性解码可以移除的目标模型计算量更少。https://preview.redd.it/twdqm7pk7p0h1.png?width=2596&format=png&auto=webp&s=71b388e143bd384fec08e299b3996ba8337e42f8 * 增益在不同工作负载上并不均匀。编码、数学、STEM 和推理任务受益更多，因为这些任务通常具有更可预测的 Token 模式。写作、摘要和角色扮演任务改进较少，因为模型有更多有效方式继续文本。 * 更高的每位置接受率并不自动意味着更高的吞吐量。MTP 接受了更多的草稿 Token，但 DFlash 在 MoE 模型上显示出更好的吞吐量。接受率只是其中的一个方面。DFlash 在单次前向传递中起草整个块，而 MTP 逐个 Token 起草。当目标模型如此快速时，即使接受率较低，更便宜的草稿路径也可能更为重要。 * 大多数被接受的草稿 Token 来自前几个位置。位置 1 的接受率，MTP 约为 80%，DFlash 约为 75%，但到位置 8 时，两者均下降至 20% 以下。https://preview.redd.it/di8n1c3m7p0h1.png?width=2615&format=png&auto=webp&s=e769d24d5ae9ad4722270437eef1f26a998ac6e8 在实际部署中，请在自己的设置和工作负载上尝试两种方法，而不是假设某一种总是更好。结果可能会随模型、提示、硬件和服务配置而变化。希望这些数据能为大家提供有用的参考点。所有用于基准测试和复现这些结果的设置和脚本均在 [Github 仓库](https://github.com/Gladiator07/gemma4_mtp_dflash) 中。您可以在我们的博客中了解更多结果和深入分析：[https://jarvislabs.ai/blog/gemma-4-mtp-vs-dflash-benchmark](https://jarvislabs.ai/blog/gemma-4-mtp-vs-dflash-benchmark)

查看原文

Gemma 4 MTP 与 DFlash 在单张 H100 上：密集模型 vs MoE 模型结果

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

z-lab/gemma-4-31B-it-DFlash

个人评测后续：Gemma4 26B MoE（Q8）vs Qwen3.5 27B Dense vs Gemma4 31B Dense 对比

LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

@googlegemma: Gemma 4 在手机上速度提升 3 倍！看看推测解码带来的不同！Multi-Token Predi…

提交意见反馈