MI50s 上的 Qwen 3.6 27B @52.8 tps TG @1569 tps PP（无 MTP，无量化）

Reddit r/LocalLLaMA 2026/05/13 19:08 新闻

mi50 qwen-3-6 benchmark inference amd-gpu vllm performance

摘要

在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果，实现了 52.8 tokens/s TG 和 1569 tokens/s PP，无量化或 MTP，证明了在 2018 年硬件上用于代理任务的可行性。

**太长不看**：标题中的结果是针对单次推理，使用 1k 和 15k token 的两个提示词。因此没有使用 MTP（因为对大提示词较慢），没有使用 DFlash（也有效但大提示词较慢），没有使用量化（需要全精度），对于 2018 年的显卡来说，结果相当不错。（基准测试采用 TP8，但未量化的模型也适用于 TP2，运行速度也很快，大约 34 tps TG）**个人认为，完全可以与 Claude Code、Hermes 或任何其他代理框架配合使用。** 我认为还有提升空间（通过更新软件和硬件栈，例如使用更低延迟的 PCIe 交换机，更优化的针对 rocm/gfx906 的 dflash/mtp 而无额外开销等）。 **使用的推理引擎（vllm 分支 v0.20.1，带有 rocm7.2.1）**：[https://github.com/ai-infos/vllm-gfx906-mobydick/tree/main](https://github.com/ai-infos/vllm-gfx906-mobydick/tree/main) **使用的 Huggingface 量化模型：** *Qwen/Qwen3.6-27B* **主要运行命令**： docker run -it --name vllm-gfx906-mobydick -v /llm:/llm --network host --device=/dev/kfd --device=/dev/dri --group-add video --group-add $(getent group render | cut -d: -f3) --ipc=host aiinfos/ vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \ /llm/models/Qwen3.6-27B \ --served-model-name Qwen3.6-27B \ --dtype float16 \ --max-model-len auto \ --max-num-batched-tokens 8192 \ --block-size 64 \ --gpu-memory-utilization 0.98 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser qwen3 \ --mm-processor-cache-gb 1 \ --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 --skip-mm-profiling \ --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \ --tensor-parallel-size 8 \ --host 0.0.0.0 \ --port 8000 2>&1 | tee log.txt FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm bench serve \ --dataset-name random \ --random-input-len 10000 \ --random-output-len 1000 \ --num-prompts 4 \ --request-rate 10000 \ --ignore-eos 2>&1 | tee logb.txt **结果：** ============ 服务基准测试结果 ============ 成功请求数：4 失败请求数：0 配置的请求速率 (RPS)：10000.00 基准测试持续时间 (秒)：121.54 总输入 tokens：40000 总生成 tokens：4000 请求吞吐量 (req/s)：0.03 输出 token 吞吐量 (tok/s)：32.91 峰值输出 token 吞吐量 (tok/s)：56.00 峰值并发请求数：4.00 总 token 吞吐量 (tok/s)：362.03 ---------------首 token 时间---------------- 平均 TTFT (毫秒)：32874.56 中位数 TTFT (毫秒)：35622.63 P99 TTFT (毫秒)：47843.84 -----每输出 token 时间（不含首 token）------ 平均 TPOT (毫秒)：88.66 中位数 TPOT (毫秒)：85.94 P99 TPOT (毫秒)：108.67 ---------------token 间延迟---------------- 平均 ITL (毫秒)：88.66 中位数 ITL (毫秒)：73.61 P99 ITL (毫秒)：74.26 ==================================================

查看原文

MI50s 上的 Qwen 3.6 27B @52.8 tps TG @1569 tps PP（无 MTP，无量化）

相似文章

更多 Qwen3.6-27B MTP 的成功案例，但这次是在双路 Mi50 上

8-16张MI50上Minimax M3模型，峰值吞吐量19 tps

Qwen3.5-122B-Q5-MTP - Qwen3.5-122B-Q6-MTP

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Qwen 3.6 在双 RTX PRO 6000 上的基准测试

提交意见反馈