llama.cpp - Qwen3.6/3.5-MTP - 分享你的基准测试(t/s)
摘要
llama.cpp 发布 b9495 版本,针对 Qwen3.6/3.5-MTP(多令牌预测)进行了优化,并请用户分享他们的基准测试结果及完整的命令详情。
我认为关于Qwen3.6/3.5-MTP的讨论已经基本尘埃落定(95%+)。在最初的PR之后,进行了大量的优化和修复。甚至在今天早些时候,还有一个与MTP相关的PR被合并并发布([b9495](https://github.com/ggml-org/llama.cpp/releases/tag/b9495))。所以请尝试这个最新版本,并分享你的基准测试结果(t/s)*。非常感谢 u/am17an 和其他人为之付出的努力。* - 请分享所有细节,以便对其他人也有用。另外,如果没有特定缺失的详细信息,基准测试结果会变得不准确。同时,我/我们希望获得最优化、最完整的命令以获得最佳 t/s。为节省你的时间,只需复制包含完整命令的控制台输出(包含所有重要细节,如模型量化、上下文大小、KVCache、适合/ncmoe、MTP 等)并粘贴在这里。以下是一个示例(不是我的,从某个随机帖子复制而来):
```
llama-server \
-m ../models/Qwen3.6-35B-A3B-MTP-UD-Q5_K_XL.gguf \
--host 0.0.0.0 \
--port 8080 \
--ctx-size 150000 \
--flash-attn on \
-b 2048 \
-ub 512 \
--cache-type-k q8_0 \
--cache-type-v q8_0 \
--jinja \
--threads 11 \
--threads-batch 11 \
-cram 12288 \
--mlock \
-fit on \
--chat-template-kwargs '{"preserve_thinking": true}' \
--spec-type mtp \
--spec-draft-n-max 3 \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
-np 1 \
--presence-penalty 0.0 \
--repeat-penalty 1.0
prompt eval time = 128889.09 ms / 26796 tokens (4.81 ms per token, 207.90 tokens per second)
eval time = 10969.17 ms / 264 tokens (41.55 ms per token, 24.07 tokens per second)
total time = 139858.26 ms / 27060 tokens
draft acceptance rate = 0.52614 ( 161 accepted / 306 generated)
statistics mtp: #calls(b,g,a) = 6 2811 2305, #gen drafts = 2811, #acc drafts = 2305, #gen tokens = 8433, #acc tokens = 5507, dur(b,g,a) = 0.020, 41478.073, 74.975 ms
```
相似文章
在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持
在 RTX 5090 上使用 Qwen3.6 模型对 llama.cpp 的新多标记预测(MTP)支持进行技术测试,比较不同提示和 GGUF 量化下开启和关闭 MTP 的性能表现。
Qwen3.5-122B-Q5-MTP - Qwen3.5-122B-Q6-MTP
在Strix Halo上使用llama.cpp进行多token预测的Qwen3.5-122B Q5和Q6量化模型的基准对比,吞吐量分别为20.24 t/s和17.17 t/s。
Qwen 3.6-27B Dense 与 MTP 在 Strix Halo Windows 上的基准测试
Qwen 3.6-27B Dense 和 MTP 变体在 Strix Halo Windows 上通过 llama.cpp 运行的社区基准测试,展示了各项任务的 token/s 速度。
更多 Qwen3.6-27B MTP 的成功案例,但这次是在双路 Mi50 上
本文在双路 Mi50 GPU 上,使用多令牌预测(MTP)和张量并行技术对 Qwen3.6-27B 模型进行了基准测试,展示了通过 llama.cpp 实现的显著加速效果。
Strix Halo上的llama.cpp多令牌预测(MTP)基准测试:27B模型大幅提速,35B模型表现不一
在Strix Halo上对llama.cpp中的多令牌预测(MTP)进行的基准测试显示,长上下文聊天场景下27B Qwen模型显著加速,而35B模型则表现不一。