MI50s 上的 Qwen 3.6 27B @52.8 tps TG @1569 tps PP(无 MTP,无量化)
摘要
在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果,实现了 52.8 tokens/s TG 和 1569 tokens/s PP,无量化或 MTP,证明了在 2018 年硬件上用于代理任务的可行性。
**太长不看**:标题中的结果是针对单次推理,使用 1k 和 15k token 的两个提示词。因此没有使用 MTP(因为对大提示词较慢),没有使用 DFlash(也有效但大提示词较慢),没有使用量化(需要全精度),对于 2018 年的显卡来说,结果相当不错。(基准测试采用 TP8,但未量化的模型也适用于 TP2,运行速度也很快,大约 34 tps TG)**个人认为,完全可以与 Claude Code、Hermes 或任何其他代理框架配合使用。**
我认为还有提升空间(通过更新软件和硬件栈,例如使用更低延迟的 PCIe 交换机,更优化的针对 rocm/gfx906 的 dflash/mtp 而无额外开销等)。
**使用的推理引擎(vllm 分支 v0.20.1,带有 rocm7.2.1)**:[https://github.com/ai-infos/vllm-gfx906-mobydick/tree/main](https://github.com/ai-infos/vllm-gfx906-mobydick/tree/main)
**使用的 Huggingface 量化模型:** *Qwen/Qwen3.6-27B*
**主要运行命令**:
docker run -it --name vllm-gfx906-mobydick -v /llm:/llm --network host --device=/dev/kfd --device=/dev/dri --group-add video --group-add $(getent group render | cut -d: -f3) --ipc=host aiinfos/ vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
/llm/models/Qwen3.6-27B \
--served-model-name Qwen3.6-27B \
--dtype float16 \
--max-model-len auto \
--max-num-batched-tokens 8192 \
--block-size 64 \
--gpu-memory-utilization 0.98 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser qwen3 \
--mm-processor-cache-gb 1 \
--limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 --skip-mm-profiling \
--default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
--tensor-parallel-size 8 \
--host 0.0.0.0 \
--port 8000 2>&1 | tee log.txt
FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm bench serve \
--dataset-name random \
--random-input-len 10000 \
--random-output-len 1000 \
--num-prompts 4 \
--request-rate 10000 \
--ignore-eos 2>&1 | tee logb.txt
**结果:**
============ 服务基准测试结果 ============
成功请求数:4
失败请求数:0
配置的请求速率 (RPS):10000.00
基准测试持续时间 (秒):121.54
总输入 tokens:40000
总生成 tokens:4000
请求吞吐量 (req/s):0.03
输出 token 吞吐量 (tok/s):32.91
峰值输出 token 吞吐量 (tok/s):56.00
峰值并发请求数:4.00
总 token 吞吐量 (tok/s):362.03
---------------首 token 时间----------------
平均 TTFT (毫秒):32874.56
中位数 TTFT (毫秒):35622.63
P99 TTFT (毫秒):47843.84
-----每输出 token 时间(不含首 token)------
平均 TPOT (毫秒):88.66
中位数 TPOT (毫秒):85.94
P99 TPOT (毫秒):108.67
---------------token 间延迟----------------
平均 ITL (毫秒):88.66
中位数 ITL (毫秒):73.61
P99 ITL (毫秒):74.26
==================================================
相似文章
更多 Qwen3.6-27B MTP 的成功案例,但这次是在双路 Mi50 上
本文在双路 Mi50 GPU 上,使用多令牌预测(MTP)和张量并行技术对 Qwen3.6-27B 模型进行了基准测试,展示了通过 llama.cpp 实现的显著加速效果。
8-16张MI50上Minimax M3模型,峰值吞吐量19 tps
报告在8-16张MI50 GPU上运行的Minimax M3模型达到每秒19个token的峰值吞吐量。
Qwen3.5-122B-Q5-MTP - Qwen3.5-122B-Q6-MTP
在Strix Halo上使用llama.cpp进行多token预测的Qwen3.5-122B Q5和Q6量化模型的基准对比,吞吐量分别为20.24 t/s和17.17 t/s。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
Qwen 3.6 在双 RTX PRO 6000 上的基准测试
使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试,生成吞吐量高达每秒 3500 个令牌。