Gemma 4 MTP 与 DFlash 在单张 H100 上:密集模型 vs MoE 模型结果

Reddit r/LocalLLaMA 新闻

摘要

该基准测试将 Gemma 4 的多 Token 预测 (MTP) 与 z-lab 的 DFlash 推测性解码方法在单张 H100 GPU 上进行了比较,结果显示 MTP 在密集模型上更快,而 DFlash 在 MoE 模型上更快。

在单张 H100 80GB 上,使用 vLLM 和 NVIDIA 的 [SPEED-Bench](https://huggingface.co/datasets/nvidia/SPEED-Bench) 定性数据集,对 Gemma 4 [MTP](https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/) 和 z-lab 的 [DFlash](https://github.com/z-lab/dflash) 进行了基准测试。 # 设置: * 硬件:1x H100 80GB * 运行时:vLLM * 数据集:SPEED-Bench 定性 * 提示:共 880 条,每个类别 80 条,共 11 个类别 * 模型:google/gemma-4-31B-it 和 google/gemma-4-26B-A4B-it * MTP 草稿:Google 相应的 Gemma 4 assistant 模型 * DFlash 草稿:z-lab 相应的 Gemma 4 DFlash 模型 * MTP 使用 num\_speculative\_tokens=8 * DFlash 使用 num\_speculative\_tokens=15 * 上下文长度/最大模型长度:`32768` * 温度:0 * 前缀缓存已禁用 # 结果: * 对于 **Gemma 4 31B 密集模型**,**MTP 快 3.11 倍**,**DFlash 快 3.03 倍**,并发度为 1 时相较于基线解码。基线达到 40.3 输出 tok/s,MTP 达到 125.3 输出 tok/s,DFlash 达到 122.1 输出 tok/s。并发度为 16 时,基线达到 375 tok/s,MTP 达到 953 tok/s,DFlash 达到 725 tok/s。https://preview.redd.it/4zyyt58j7p0h1.png?width=2571&format=png&auto=webp&s=930d3a8383fb7fe40749217867f4f3ab9877b4a4 * 对于 **Gemma 4 26B-A4B MoE**,结果反转。**DFlash 快 1.73 倍**,**MTP 快 1.49 倍**,并发度为 1 时相较于基线解码。基线达到 177.1 输出 tok/s,MTP 达到 264.2 输出 tok/s,DFlash 达到 306.4 输出 tok/s。并发度为 16 时,基线达到 975 tok/s,MTP 达到 1808 tok/s,DFlash 达到 1957 tok/s。 * MoE 的加速比小于密集模型,因为基线 MoE 目标本身的运行成本已经相对较低。Gemma 4 26B-A4B 总参数量为 25.2B,但推理过程中仅激活 3.8B 参数。这意味着与密集的 31B 模型相比,推测性解码可以移除的目标模型计算量更少。https://preview.redd.it/twdqm7pk7p0h1.png?width=2596&format=png&auto=webp&s=71b388e143bd384fec08e299b3996ba8337e42f8 * 增益在不同工作负载上并不均匀。编码、数学、STEM 和推理任务受益更多,因为这些任务通常具有更可预测的 Token 模式。写作、摘要和角色扮演任务改进较少,因为模型有更多有效方式继续文本。 * 更高的每位置接受率并不自动意味着更高的吞吐量。MTP 接受了更多的草稿 Token,但 DFlash 在 MoE 模型上显示出更好的吞吐量。接受率只是其中的一个方面。DFlash 在单次前向传递中起草整个块,而 MTP 逐个 Token 起草。当目标模型如此快速时,即使接受率较低,更便宜的草稿路径也可能更为重要。 * 大多数被接受的草稿 Token 来自前几个位置。位置 1 的接受率,MTP 约为 80%,DFlash 约为 75%,但到位置 8 时,两者均下降至 20% 以下。https://preview.redd.it/di8n1c3m7p0h1.png?width=2615&format=png&auto=webp&s=e769d24d5ae9ad4722270437eef1f26a998ac6e8 在实际部署中,请在自己的设置和工作负载上尝试两种方法,而不是假设某一种总是更好。结果可能会随模型、提示、硬件和服务配置而变化。希望这些数据能为大家提供有用的参考点。所有用于基准测试和复现这些结果的设置和脚本均在 [Github 仓库](https://github.com/Gladiator07/gemma4_mtp_dflash) 中。您可以在我们的博客中了解更多结果和深入分析:[https://jarvislabs.ai/blog/gemma-4-mtp-vs-dflash-benchmark](https://jarvislabs.ai/blog/gemma-4-mtp-vs-dflash-benchmark)
查看原文

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。

z-lab/gemma-4-31B-it-DFlash

Hugging Face Models Trending

Z-lab 发布了 DFlash,这是一种用于 Gemma-4-31B-it 的投机解码草稿模型,采用轻量级块扩散并行生成多个 token,相较于自回归基线实现了最高 5.8 倍的加速。