DifussionGemma 4 on 4x7900xtx
摘要
报告了在四块AMD 7900 XTX GPU上使用vllm运行DiffusionGemma 26B,生成时达到100 tps,总时间约为45-60 t/s(包括提示处理等待时间),并分享了性能指标和设置命令。
刚刚在生成时达到了100 tps,但总时间(包括提示处理等待)约为45-60 t/s。可用内存显示:GPU KV缓存大小:152,671个token。每个请求131,072个token的最大并发数:1.16倍。该GPU的amd-smi监控:
GPU XCP POWER GPU_T MEM_T GFX_CLK GFX% MEM% ENC% DEC% VRAM_USAGE
3 0 183 W 82 °C 84 °C 3036 MHz 100 % 5 % N/A 0 % 23.6/ 24.0 GB
5 0 161 W 81 °C 88 °C 3101 MHz 100 % 0 % N/A 0 % 23.7/ 24.0 GB
7 0 165 W 78 °C 86 °C 3095 MHz 100 % 1 % N/A 0 % 23.7/ 24.0 GB
8 0 154 W 80 °C 88 °C 3090 MHz 100 % 0 % N/A 0 % 23.6/ 24.0 GB
# DiffusionGemma 26B on vllm dgemma branch (4x 7900 XTX)
set -uo pipefail
docker run --name "$1" \
--rm --tty --ipc=host --shm-size=32g \
--device /dev/kfd:/dev/kfd \
--device /dev/dri/renderD131:/dev/dri/renderD131 \
--device /dev/dri/renderD133:/dev/dri/renderD133 \
--device /dev/dri/renderD136:/dev/dri/renderD136 \
--device /dev/dri/renderD135:/dev/dri/renderD135 \
--device /dev/mem:/dev/mem \
--security-opt seccomp=unconfined \
--group-add video \
-e HIP_VISIBLE_DEVICES=0,1,2,3 \
-e ROCR_VISIBLE_DEVICES=0,1,2,3 \
-v /mnt/tb_disk/llm:/app/models:ro \
-v /mnt/tb_disk/llm/torch_compile_cache:/root/.cache/vllm/torch_compile_cache \
-v /opt/services/llama-swap/moe_configs/E=128,N=176,device_name=AMD_Radeon_RX7900XTX.json:/usr/local/lib/python3.12/dist-packages/vllm/model_executor/layers/fused_moe/configs/E=128,N=176,device_name=AMD_Radeon_RX7900XTX.json:ro \
-e TRUST_REMOTE_CODE=1 \
-e OMP_NUM_THREADS=8 \
-e PYTORCH_TUNABLEOP_ENABLED=1 \
-e GPU_MAX_HW_QUEUES=1 \
-e VLLM_ROCM_USE_AITER=0 \
-e VLLM_ROCM_USE_AITER_MOE=0 \
-e VLLM_USE_V2_MODEL_RUNNER=1 \
-e PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:256 \
-p "$2":8000 \
--entrypoint vllm \
vllm-dgemma:nocompile \
serve \
/app/models/models/vllm/diffusiongemma-26B-A4B-it \
--served-model-name "$1" --host 0.0.0.0 --port 8000 --trust-remote-code \
--gpu-memory-utilization 0.65 --tensor-parallel-size 4 \
--tool-call-parser gemma4 --enable-auto-tool-choice \
--reasoning-parser gemma4 \
--attention-backend TRITON_ATTN \
--max-num-seqs 2 --max-model-len 131072 \
--generation-config vllm \
--hf-overrides '{"diffusion_sampler": "entropy_bound", "diffusion_entropy_bound": 0.1}'
所以它确实能工作,但为了启动它,我们花费了2-3M的deepseek-v4-pro tokens来准备docker镜像。
相似文章
@mervenoyann: DiffusionGemma 已发布,它受计算限制,因此相比其他 Gemma-4 模型快 4 倍(H100 上 1k tok/s),在……方面也很出色
DiffusionGemma 已发布;它受计算限制,比其它 Gemma-4 模型快 4 倍(H100 上 1k tok/s),擅长编码任务,包括 3D 生成和前端开发。
DiffusionGemma 26B A4B 在我5090上的结果
本文介绍了在RTX 5090 GPU上运行DiffusionGemma 26B A4B GGUF模型的基准测试结果及调优参数,通过优化温度设置和量化选择实现最高44%的加速。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
在实际工作负载下,DiffusionGemma 与基准演示的表现截然不同
DiffusionGemma 的内部测试显示,在实际工作负载下,H100 与 A100 GPU 之间存在显著的性能差异;H100 在并发下的扩展性更好,且效率因工作负载类型而异,这引发了对基准测试可靠性的质疑。
Gemma 4 QAT 基准测试结果(AMD 7900 XTX):速度更快,显存占用更少,质量无损
一位用户在 AMD 7900 XTX 上对 Google 的 Gemma 4 QAT 模型进行了基准测试,报告显示生成速度提升高达 45%,吞吐量提高 83%,显存占用大幅减少(例如 12B QAT 模型节省 5.7GB),且与标准权重相比质量无损。