在实际工作负载下，DiffusionGemma 与基准演示的表现截然不同

Reddit r/LocalLLaMA 2026/06/11 14:18 新闻

diffusion-gemma gpu-benchmarking h100 a100 real-world-performance inference model-testing

摘要

DiffusionGemma 的内部测试显示，在实际工作负载下，H100 与 A100 GPU 之间存在显著的性能差异；H100 在并发下的扩展性更好，且效率因工作负载类型而异，这引发了对基准测试可靠性的质疑。

经过对 DiffusionGemma 的更多内部测试，我们真的无法判断这是否是某件大事的开端，还是大家又被惊人的 TPS 数字分散了注意力，哈哈。但有一点让我们非常迅速地注意到：H100 与 A100 的行为表现与常规 transformer 推理相比截然不同。在一些运行中，H100 的扩展几乎完全符合预期，而 A100 表现虽也不错，但随着并发量增加，两者差距远超我们的预期。这不是通常那种“嗯，H100 更快”的差异——感觉更加剧烈。另一件我们注意到的事情是：该模型在处理较干净的工作负载和较短生成任务时表现极其出色，但一旦开始混合较长的输出、不均衡的请求长度、流式传输、多用户以及不同温度等场景，行为就会迅速变化。有些工作负载看起来快得令人怀疑，而一个混乱的真实世界风格批次却会突然让效率下降得比预期更严重。此外，GPU 利用率模式也与我们通常看到的解码密集型服务模式截然不同——目前很难准确描述，但这感觉完全不像经典的逐 token 瓶颈情况。我们还从 A100 测试箱中放了一些截图。我们仍在测试更多组合和真实流量模拟，说实话，测试得越多，疑问就越多。等我们完成更多跨堆栈的工作负载测试后，会分享更多数据。好奇其他人是否看到类似行为或完全不同的结果。

查看原文

在实际工作负载下，DiffusionGemma 与基准演示的表现截然不同

相似文章

@mervenoyann: DiffusionGemma 已发布，它受计算限制，因此相比其他 Gemma-4 模型快 4 倍（H100 上 1k tok/s），在……方面也很出色

DiffusionGemma 26B A4B 在我5090上的结果

DifussionGemma 4 on 4x7900xtx

DiffusionGemma: 文本生成速度提升4倍

Gemma 4 MTP 与 DFlash 在单张 H100 上：密集模型 vs MoE 模型结果

提交意见反馈