MTP 下的质量较差 - Qwen 3.6, Gemma 4

Reddit r/LocalLLaMA 2026/06/25 07:10 新闻

mtp multi-token-prediction qwen gemma llama.cpp quality-issues self-hosting

摘要

用户报告称，Qwen 3.6 和 Gemma 4 的 MTP 版本在代码审查任务中的输出质量低于非 MTP 版本，尽管其 token 生成速率更高，但实际速度提升微乎其微。

你好。我正在使用 Llama.cpp 在 4 块 5070ti 上自托管 Qwen 3.6 27B Q8_K_XL（4 张卡通过单个 x16 插槽分叉为 4x4 再通过转接线连接）。我已在几个工作仓库中用 Opencode CLI 对其进行了测试，在大约 8/10 的情况下，非 MTP 模型的输出远优于 MTP 模型。提示词很简单：`对这个分支进行代码审查。` 非 MTP 模型能发现更多问题，描述更详细，还附带了修复建议代码片段，各方面都更好。通常消耗的 token 也更少（例如非 MTP 约 40k token，而 MTP 约 60k token）。实际速度也并不理想： - 非 MTP 模型大约是 2000 tokens/s 的预填充速度和 50-60 tokens/s 的生成速度。 - MTP 模型大约是 1300 tokens/s 的预填充速度和 100-120 tokens/s 的生成速度。因此，尽管 MTP 的生成速度翻倍，但在实际 agent 任务中，MTP 与非 MTP 的耗时差异在 20% 以内。我不明白哪里做错了——大家都说 MTP 是免费的性能提升且质量不变，但对我而言，MTP 降低了输出质量，需要更多显存（这点我预料到了），消耗更多上下文…… 我的设置： **Qwen MTP**（文件来自 https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF） ```bash exec /opt/llama.cpp/build-cuda/bin/llama-server \ --host 0.0.0.0 \ --port 8081 \ --alias Qwen3.6-27B \ --model /opt/models/qwen36/27b/unsloth/Qwen3.6-27B-UD-Q8_K_XL.gguf \ --ctx-size 262144 \ --device CUDA0,CUDA1,CUDA2,CUDA3 \ --fit off \ --split-mode tensor \ --tensor-split 1,1,1,1 \ --gpu-layers all \ --flash-attn on \ --kv-offload \ --cache-type-k f16 \ --cache-type-v f16 \ --batch-size 4096 \ --ubatch-size 1024 \ --parallel 1 \ --jinja \ --top-p 0.95 \ --top-k 20 \ --temp 0.6 \ --min-p 0.00 \ --spec-type draft-mtp \ --spec-draft-n-max 2 \ --no-cache-idle-slots \ --cache-ram 32768 \ --presence-penalty 0.0 \ --repeat-penalty 1.0 \ --mmproj /opt/models/qwen36/27b/unsloth/mmproj-BF16.gguf \ --image-min-tokens 1024 \ --cache-prompt \ --ctx-checkpoints 128 \ --checkpoint-min-step 512 \ --cache-reuse 512 \ --cache-idle-slots \ --no-context-shift \ --no-kv-unified \ --slot-prompt-similarity 0.10 \ --reasoning on \ --chat-template-kwargs '{"preserve_thinking":true}' \ --no-mmproj-offload ``` **Qwen 非 MTP**（文件来自 https://huggingface.co/unsloth/Qwen3.6-27B-GGUF）唯一的不同是： ```bash --model /opt/models/qwen36/27b/unsloth/Qwen3.6-27B-UD-NoMTP-Q8_K_XL.gguf # 缺少 --spec-type 和 --spec-draft-n-max 标志 ``` 我还尝试了 https://huggingface.co/unsloth/gemma-4-31B-it-qat-GGUF ，对比 MTP 和非 MTP 时也有类似体验。有人遇到过同样的情况吗？附注：等我回家后，可能会在某个 OSS 仓库上添加一些示例，可能还会带上 llama.cpp 的日志。

查看原文

MTP 下的质量较差 - Qwen 3.6, Gemma 4

相似文章

MTP 关键在于接受率

你对Gemma4 QAT的体验如何？

在6GB显存笔记本上使用Qwen3.6-35B-A3B的MTP：不值得

我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍，这是我的发现（RTX 6000 PRO）。

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

提交意见反馈