Qwen 3.6-27B Dense 与 MTP 在 Strix Halo Windows 上的基准测试

Reddit r/LocalLLaMA 新闻

摘要

Qwen 3.6-27B Dense 和 MTP 变体在 Strix Halo Windows 上通过 llama.cpp 运行的社区基准测试,展示了各项任务的 token/s 速度。

以下是一些结果(llama.cpp)!任务 1:写一首短诗 27B Dense: 12.5 tokens/s 27B Dense MTP (spec-draft-n-max 6): 14.5 tokens/s 27B Dense MTP (spec-draft-n-max 3): 18.7 tokens/s 任务 2:编辑一个 hello world HTML 工件 27B Dense: 12.6 tokens/s 27B Dense MTP (spec-draft-n-max 6): 14.2 tokens/s 27B Dense MTP (spec-draft-n-max 3): 19.8 tokens/s 任务 3:直接在聊天中创建一个 hello world HTML 27B Dense: 12.6 tokens/s 27B Dense MTP (spec-draft-n-max 6): 17.9 tokens/s 27B Dense MTP (spec-draft-n-max 3): 23.2 tokens/s 任务之间的差异令人着迷!https://preview.redd.it/bsrlgslasn1h1.png?width=1802&format=png&auto=webp&s=8aba6c751bf7c47494ce11697b91a4347fec79af 使用的设置: { "name": "Qwen3.6-27B-UD-Q4\_K\_M", "file": "Qwen3.6-27B-UD-Q4\_K\_M.gguf", "custom": \["--mmproj", "C:/CarlAI/models/mmproj-Qwen\_Qwen3.6-27B-bf16.gguf"\], "backend": "vulkan", "parameters": { "temp": 0.8, "top\_k": 20, "top\_p": 0.95, "min\_p": 0.00, "repeat\_penalty": 1.0, "ngl": 99, "context\_length": 65000, "jinja": true, "flash\_attn": "on" } }, { "name": "Qwen3.6-27B-UD-Q4\_K\_XL\_MTP", "file": "Qwen3.6-27B-UD-Q4\_K\_XL\_MTP.gguf", "custom": \["-np", "1", "--spec-type", "draft-mtp", "--spec-draft-n-max", "6"\], "backend": "vulkan", "parameters": { "temp": 0.8, "top\_k": 20, "top\_p": 0.95, "min\_p": 0.00, "repeat\_penalty": 1.0, "ngl": 99, "context\_length": 65000, "jinja": true, "flash\_attn": "on" } },
查看原文

相似文章

Qwen3.5-122B-Q5-MTP - Qwen3.5-122B-Q6-MTP

Reddit r/LocalLLaMA

在Strix Halo上使用llama.cpp进行多token预测的Qwen3.5-122B Q5和Q6量化模型的基准对比,吞吐量分别为20.24 t/s和17.17 t/s。

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

X AI KOLs Timeline

某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。