llama.cpp - Qwen3.6/3.5-MTP - 分享你的基准测试(t/s)

Reddit r/LocalLLaMA 工具

摘要

llama.cpp 发布 b9495 版本,针对 Qwen3.6/3.5-MTP(多令牌预测)进行了优化,并请用户分享他们的基准测试结果及完整的命令详情。

我认为关于Qwen3.6/3.5-MTP的讨论已经基本尘埃落定(95%+)。在最初的PR之后,进行了大量的优化和修复。甚至在今天早些时候,还有一个与MTP相关的PR被合并并发布([b9495](https://github.com/ggml-org/llama.cpp/releases/tag/b9495))。所以请尝试这个最新版本,并分享你的基准测试结果(t/s)*。非常感谢 u/am17an 和其他人为之付出的努力。* - 请分享所有细节,以便对其他人也有用。另外,如果没有特定缺失的详细信息,基准测试结果会变得不准确。同时,我/我们希望获得最优化、最完整的命令以获得最佳 t/s。为节省你的时间,只需复制包含完整命令的控制台输出(包含所有重要细节,如模型量化、上下文大小、KVCache、适合/ncmoe、MTP 等)并粘贴在这里。以下是一个示例(不是我的,从某个随机帖子复制而来): ``` llama-server \ -m ../models/Qwen3.6-35B-A3B-MTP-UD-Q5_K_XL.gguf \ --host 0.0.0.0 \ --port 8080 \ --ctx-size 150000 \ --flash-attn on \ -b 2048 \ -ub 512 \ --cache-type-k q8_0 \ --cache-type-v q8_0 \ --jinja \ --threads 11 \ --threads-batch 11 \ -cram 12288 \ --mlock \ -fit on \ --chat-template-kwargs '{"preserve_thinking": true}' \ --spec-type mtp \ --spec-draft-n-max 3 \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.0 \ -np 1 \ --presence-penalty 0.0 \ --repeat-penalty 1.0 prompt eval time = 128889.09 ms / 26796 tokens (4.81 ms per token, 207.90 tokens per second) eval time = 10969.17 ms / 264 tokens (41.55 ms per token, 24.07 tokens per second) total time = 139858.26 ms / 27060 tokens draft acceptance rate = 0.52614 ( 161 accepted / 306 generated) statistics mtp: #calls(b,g,a) = 6 2811 2305, #gen drafts = 2811, #acc drafts = 2305, #gen tokens = 8433, #acc tokens = 5507, dur(b,g,a) = 0.020, 41478.073, 74.975 ms ```
查看原文

相似文章

Qwen3.5-122B-Q5-MTP - Qwen3.5-122B-Q6-MTP

Reddit r/LocalLLaMA

在Strix Halo上使用llama.cpp进行多token预测的Qwen3.5-122B Q5和Q6量化模型的基准对比,吞吐量分别为20.24 t/s和17.17 t/s。