Qwen 3.6-27B Dense 与 MTP 在 Strix Halo Windows 上的基准测试

Reddit r/LocalLLaMA 2026/05/17 08:08 新闻

qwen benchmarks llama-cpp inference-speed mtp strix-halo windows

摘要

Qwen 3.6-27B Dense 和 MTP 变体在 Strix Halo Windows 上通过 llama.cpp 运行的社区基准测试，展示了各项任务的 token/s 速度。

以下是一些结果（llama.cpp）！任务 1：写一首短诗 27B Dense: 12.5 tokens/s 27B Dense MTP (spec-draft-n-max 6): 14.5 tokens/s 27B Dense MTP (spec-draft-n-max 3): 18.7 tokens/s 任务 2：编辑一个 hello world HTML 工件 27B Dense: 12.6 tokens/s 27B Dense MTP (spec-draft-n-max 6): 14.2 tokens/s 27B Dense MTP (spec-draft-n-max 3): 19.8 tokens/s 任务 3：直接在聊天中创建一个 hello world HTML 27B Dense: 12.6 tokens/s 27B Dense MTP (spec-draft-n-max 6): 17.9 tokens/s 27B Dense MTP (spec-draft-n-max 3): 23.2 tokens/s 任务之间的差异令人着迷！https://preview.redd.it/bsrlgslasn1h1.png?width=1802&format=png&auto=webp&s=8aba6c751bf7c47494ce11697b91a4347fec79af 使用的设置： { "name": "Qwen3.6-27B-UD-Q4\_K\_M", "file": "Qwen3.6-27B-UD-Q4\_K\_M.gguf", "custom": \["--mmproj", "C:/CarlAI/models/mmproj-Qwen\_Qwen3.6-27B-bf16.gguf"\], "backend": "vulkan", "parameters": { "temp": 0.8, "top\_k": 20, "top\_p": 0.95, "min\_p": 0.00, "repeat\_penalty": 1.0, "ngl": 99, "context\_length": 65000, "jinja": true, "flash\_attn": "on" } }, { "name": "Qwen3.6-27B-UD-Q4\_K\_XL\_MTP", "file": "Qwen3.6-27B-UD-Q4\_K\_XL\_MTP.gguf", "custom": \["-np", "1", "--spec-type", "draft-mtp", "--spec-draft-n-max", "6"\], "backend": "vulkan", "parameters": { "temp": 0.8, "top\_k": 20, "top\_p": 0.95, "min\_p": 0.00, "repeat\_penalty": 1.0, "ngl": 99, "context\_length": 65000, "jinja": true, "flash\_attn": "on" } },

查看原文

Qwen 3.6-27B Dense 与 MTP 在 Strix Halo Windows 上的基准测试

相似文章

Qwen3.5-122B-Q5-MTP - Qwen3.5-122B-Q6-MTP

Strix Halo上的llama.cpp多令牌预测（MTP）基准测试：27B模型大幅提速，35B模型表现不一

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

更多 Qwen3.6-27B MTP 的成功案例，但这次是在双路 Mi50 上

llama.cpp - Qwen3.6/3.5-MTP - 分享你的基准测试（t/s）

提交意见反馈