在实际工作负载下,DiffusionGemma 与基准演示的表现截然不同
摘要
DiffusionGemma 的内部测试显示,在实际工作负载下,H100 与 A100 GPU 之间存在显著的性能差异;H100 在并发下的扩展性更好,且效率因工作负载类型而异,这引发了对基准测试可靠性的质疑。
经过对 DiffusionGemma 的更多内部测试,我们真的无法判断这是否是某件大事的开端,还是大家又被惊人的 TPS 数字分散了注意力,哈哈。但有一点让我们非常迅速地注意到:H100 与 A100 的行为表现与常规 transformer 推理相比截然不同。在一些运行中,H100 的扩展几乎完全符合预期,而 A100 表现虽也不错,但随着并发量增加,两者差距远超我们的预期。这不是通常那种“嗯,H100 更快”的差异——感觉更加剧烈。另一件我们注意到的事情是:该模型在处理较干净的工作负载和较短生成任务时表现极其出色,但一旦开始混合较长的输出、不均衡的请求长度、流式传输、多用户以及不同温度等场景,行为就会迅速变化。有些工作负载看起来快得令人怀疑,而一个混乱的真实世界风格批次却会突然让效率下降得比预期更严重。此外,GPU 利用率模式也与我们通常看到的解码密集型服务模式截然不同——目前很难准确描述,但这感觉完全不像经典的逐 token 瓶颈情况。我们还从 A100 测试箱中放了一些截图。我们仍在测试更多组合和真实流量模拟,说实话,测试得越多,疑问就越多。等我们完成更多跨堆栈的工作负载测试后,会分享更多数据。好奇其他人是否看到类似行为或完全不同的结果。
相似文章
@mervenoyann: DiffusionGemma 已发布,它受计算限制,因此相比其他 Gemma-4 模型快 4 倍(H100 上 1k tok/s),在……方面也很出色
DiffusionGemma 已发布;它受计算限制,比其它 Gemma-4 模型快 4 倍(H100 上 1k tok/s),擅长编码任务,包括 3D 生成和前端开发。
DiffusionGemma 26B A4B 在我5090上的结果
本文介绍了在RTX 5090 GPU上运行DiffusionGemma 26B A4B GGUF模型的基准测试结果及调优参数,通过优化温度设置和量化选择实现最高44%的加速。
DifussionGemma 4 on 4x7900xtx
报告了在四块AMD 7900 XTX GPU上使用vllm运行DiffusionGemma 26B,生成时达到100 tps,总时间约为45-60 t/s(包括提示处理等待时间),并分享了性能指标和设置命令。
DiffusionGemma: 文本生成速度提升4倍
Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。
Gemma 4 MTP 与 DFlash 在单张 H100 上:密集模型 vs MoE 模型结果
该基准测试将 Gemma 4 的多 Token 预测 (MTP) 与 z-lab 的 DFlash 推测性解码方法在单张 H100 GPU 上进行了比较,结果显示 MTP 在密集模型上更快,而 DFlash 在 MoE 模型上更快。