MI50s 上的 Qwen 3.6 27B @52.8 tps TG @1569 tps PP(无 MTP,无量化)

Reddit r/LocalLLaMA 新闻

摘要

在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果,实现了 52.8 tokens/s TG 和 1569 tokens/s PP,无量化或 MTP,证明了在 2018 年硬件上用于代理任务的可行性。

**太长不看**:标题中的结果是针对单次推理,使用 1k 和 15k token 的两个提示词。因此没有使用 MTP(因为对大提示词较慢),没有使用 DFlash(也有效但大提示词较慢),没有使用量化(需要全精度),对于 2018 年的显卡来说,结果相当不错。(基准测试采用 TP8,但未量化的模型也适用于 TP2,运行速度也很快,大约 34 tps TG)**个人认为,完全可以与 Claude Code、Hermes 或任何其他代理框架配合使用。** 我认为还有提升空间(通过更新软件和硬件栈,例如使用更低延迟的 PCIe 交换机,更优化的针对 rocm/gfx906 的 dflash/mtp 而无额外开销等)。 **使用的推理引擎(vllm 分支 v0.20.1,带有 rocm7.2.1)**:[https://github.com/ai-infos/vllm-gfx906-mobydick/tree/main](https://github.com/ai-infos/vllm-gfx906-mobydick/tree/main) **使用的 Huggingface 量化模型:** *Qwen/Qwen3.6-27B* **主要运行命令**: docker run -it --name vllm-gfx906-mobydick -v /llm:/llm --network host --device=/dev/kfd --device=/dev/dri --group-add video --group-add $(getent group render | cut -d: -f3) --ipc=host aiinfos/ vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \ /llm/models/Qwen3.6-27B \ --served-model-name Qwen3.6-27B \ --dtype float16 \ --max-model-len auto \ --max-num-batched-tokens 8192 \ --block-size 64 \ --gpu-memory-utilization 0.98 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser qwen3 \ --mm-processor-cache-gb 1 \ --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 --skip-mm-profiling \ --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \ --tensor-parallel-size 8 \ --host 0.0.0.0 \ --port 8000 2>&1 | tee log.txt FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm bench serve \ --dataset-name random \ --random-input-len 10000 \ --random-output-len 1000 \ --num-prompts 4 \ --request-rate 10000 \ --ignore-eos 2>&1 | tee logb.txt **结果:** ============ 服务基准测试结果 ============ 成功请求数:4 失败请求数:0 配置的请求速率 (RPS):10000.00 基准测试持续时间 (秒):121.54 总输入 tokens:40000 总生成 tokens:4000 请求吞吐量 (req/s):0.03 输出 token 吞吐量 (tok/s):32.91 峰值输出 token 吞吐量 (tok/s):56.00 峰值并发请求数:4.00 总 token 吞吐量 (tok/s):362.03 ---------------首 token 时间---------------- 平均 TTFT (毫秒):32874.56 中位数 TTFT (毫秒):35622.63 P99 TTFT (毫秒):47843.84 -----每输出 token 时间(不含首 token)------ 平均 TPOT (毫秒):88.66 中位数 TPOT (毫秒):85.94 P99 TPOT (毫秒):108.67 ---------------token 间延迟---------------- 平均 ITL (毫秒):88.66 中位数 ITL (毫秒):73.61 P99 ITL (毫秒):74.26 ==================================================
查看原文

相似文章

Qwen3.5-122B-Q5-MTP - Qwen3.5-122B-Q6-MTP

Reddit r/LocalLLaMA

在Strix Halo上使用llama.cpp进行多token预测的Qwen3.5-122B Q5和Q6量化模型的基准对比,吞吐量分别为20.24 t/s和17.17 t/s。