Gemma 4 MTP 与 DFlash 在单张 H100 上:密集模型 vs MoE 模型结果
摘要
该基准测试将 Gemma 4 的多 Token 预测 (MTP) 与 z-lab 的 DFlash 推测性解码方法在单张 H100 GPU 上进行了比较,结果显示 MTP 在密集模型上更快,而 DFlash 在 MoE 模型上更快。
在单张 H100 80GB 上,使用 vLLM 和 NVIDIA 的 [SPEED-Bench](https://huggingface.co/datasets/nvidia/SPEED-Bench) 定性数据集,对 Gemma 4 [MTP](https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/) 和 z-lab 的 [DFlash](https://github.com/z-lab/dflash) 进行了基准测试。
# 设置:
* 硬件:1x H100 80GB
* 运行时:vLLM
* 数据集:SPEED-Bench 定性
* 提示:共 880 条,每个类别 80 条,共 11 个类别
* 模型:google/gemma-4-31B-it 和 google/gemma-4-26B-A4B-it
* MTP 草稿:Google 相应的 Gemma 4 assistant 模型
* DFlash 草稿:z-lab 相应的 Gemma 4 DFlash 模型
* MTP 使用 num\_speculative\_tokens=8
* DFlash 使用 num\_speculative\_tokens=15
* 上下文长度/最大模型长度:`32768`
* 温度:0
* 前缀缓存已禁用
# 结果:
* 对于 **Gemma 4 31B 密集模型**,**MTP 快 3.11 倍**,**DFlash 快 3.03 倍**,并发度为 1 时相较于基线解码。基线达到 40.3 输出 tok/s,MTP 达到 125.3 输出 tok/s,DFlash 达到 122.1 输出 tok/s。并发度为 16 时,基线达到 375 tok/s,MTP 达到 953 tok/s,DFlash 达到 725 tok/s。https://preview.redd.it/4zyyt58j7p0h1.png?width=2571&format=png&auto=webp&s=930d3a8383fb7fe40749217867f4f3ab9877b4a4
* 对于 **Gemma 4 26B-A4B MoE**,结果反转。**DFlash 快 1.73 倍**,**MTP 快 1.49 倍**,并发度为 1 时相较于基线解码。基线达到 177.1 输出 tok/s,MTP 达到 264.2 输出 tok/s,DFlash 达到 306.4 输出 tok/s。并发度为 16 时,基线达到 975 tok/s,MTP 达到 1808 tok/s,DFlash 达到 1957 tok/s。
* MoE 的加速比小于密集模型,因为基线 MoE 目标本身的运行成本已经相对较低。Gemma 4 26B-A4B 总参数量为 25.2B,但推理过程中仅激活 3.8B 参数。这意味着与密集的 31B 模型相比,推测性解码可以移除的目标模型计算量更少。https://preview.redd.it/twdqm7pk7p0h1.png?width=2596&format=png&auto=webp&s=71b388e143bd384fec08e299b3996ba8337e42f8
* 增益在不同工作负载上并不均匀。编码、数学、STEM 和推理任务受益更多,因为这些任务通常具有更可预测的 Token 模式。写作、摘要和角色扮演任务改进较少,因为模型有更多有效方式继续文本。
* 更高的每位置接受率并不自动意味着更高的吞吐量。MTP 接受了更多的草稿 Token,但 DFlash 在 MoE 模型上显示出更好的吞吐量。接受率只是其中的一个方面。DFlash 在单次前向传递中起草整个块,而 MTP 逐个 Token 起草。当目标模型如此快速时,即使接受率较低,更便宜的草稿路径也可能更为重要。
* 大多数被接受的草稿 Token 来自前几个位置。位置 1 的接受率,MTP 约为 80%,DFlash 约为 75%,但到位置 8 时,两者均下降至 20% 以下。https://preview.redd.it/di8n1c3m7p0h1.png?width=2615&format=png&auto=webp&s=e769d24d5ae9ad4722270437eef1f26a998ac6e8
在实际部署中,请在自己的设置和工作负载上尝试两种方法,而不是假设某一种总是更好。结果可能会随模型、提示、硬件和服务配置而变化。希望这些数据能为大家提供有用的参考点。所有用于基准测试和复现这些结果的设置和脚本均在 [Github 仓库](https://github.com/Gladiator07/gemma4_mtp_dflash) 中。您可以在我们的博客中了解更多结果和深入分析:[https://jarvislabs.ai/blog/gemma-4-mtp-vs-dflash-benchmark](https://jarvislabs.ai/blog/gemma-4-mtp-vs-dflash-benchmark)
相似文章
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
z-lab/gemma-4-31B-it-DFlash
Z-lab 发布了 DFlash,这是一种用于 Gemma-4-31B-it 的投机解码草稿模型,采用轻量级块扩散并行生成多个 token,相较于自回归基线实现了最高 5.8 倍的加速。
个人评测后续:Gemma4 26B MoE(Q8)vs Qwen3.5 27B Dense vs Gemma4 31B Dense 对比
个人基准测试显示,Qwen3.5-27B Dense 与 Gemma4-31B Dense 在 37 个失败用例中修复率 100%,即使 8-bit 量化的 Gemma4-26B MoE 也望尘莫及,同时消耗更少 token 与更短挂钟时间。
LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%
llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。
@googlegemma: Gemma 4 在手机上速度提升 3 倍!看看推测解码带来的不同!Multi-Token Predi…
Google 的 Gemma 4 通过推测解码和多 Token 预测,推理速度提升高达 3 倍,可实现高效的设备端部署。