MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA 2026/05/12 13:10 工具

llama-cpp multi-token-prediction cuda unified-memory benchmarking performance

摘要

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试，比较启用和未启用 MTP（多令牌预测）时的性能。结果显示，在 RTX5090 上使用 Qwen3.6-27B 模型时，启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。

我想知道使用标志时的结果差异：**GGML\_CUDA\_ENABLE\_UNIFIED\_MEMORY=1** vs **MTP+GGML\_CUDA\_ENABLE\_UNIFIED\_MEMORY=1** 结果相当有趣 **无 MTP 时为 49 tok/s** vs **有 MTP 时为 64 tok/s** **PC: RTX5090+128GB DDR5 5600 CL36+Ryzen 9 9950X3D** **Model: Qwen3.6-27B-Q8\_0.gguf (Unsloth with MTP)** Command: `CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \` `-m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \` `--threads 16 \` `-c 262144 -fa on -np 1 \` `--spec-type mtp --spec-draft-n-max 3 \` `--webui-mcp-proxy \` `--chat-template-kwargs '{"preserve_thinking": true}' \` `--host` [0.0.0.0](http://0.0.0.0) `\` `--port 8090 \` `--jinja`

查看原文

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

相似文章

在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持

我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍，这是我的发现（RTX 6000 PRO）。

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

MTP（多令牌预测）：在AMD Strix Halo和Radeon 9700 AI Pro上实现2倍令牌生成加速

提交意见反馈