MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp
摘要
一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。
我想知道使用标志时的结果差异:**GGML\_CUDA\_ENABLE\_UNIFIED\_MEMORY=1** vs **MTP+GGML\_CUDA\_ENABLE\_UNIFIED\_MEMORY=1** 结果相当有趣 **无 MTP 时为 49 tok/s** vs **有 MTP 时为 64 tok/s** **PC: RTX5090+128GB DDR5 5600 CL36+Ryzen 9 9950X3D** **Model: Qwen3.6-27B-Q8\_0.gguf (Unsloth with MTP)** Command: `CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \` `-m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \` `--threads 16 \` `-c 262144 -fa on -np 1 \` `--spec-type mtp --spec-draft-n-max 3 \` `--webui-mcp-proxy \` `--chat-template-kwargs '{"preserve_thinking": true}' \` `--host` [0.0.0.0](http://0.0.0.0) `\` `--port 8090 \` `--jinja`
相似文章
在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持
在 RTX 5090 上使用 Qwen3.6 模型对 llama.cpp 的新多标记预测(MTP)支持进行技术测试,比较不同提示和 GGUF 量化下开启和关闭 MTP 的性能表现。
我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍,这是我的发现(RTX 6000 PRO)。
使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测(MTP)基准测试显示,推理速度最高提升 3.34 倍,最优推测令牌数量因模型和引擎而异。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%
llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。
MTP(多令牌预测):在AMD Strix Halo和Radeon 9700 AI Pro上实现2倍令牌生成加速
MTP(多令牌预测)可以将LLM推理速度提高2倍,尤其适用于编码代理。本视频展示了Qwen 3.6在AMD Strix Halo和双Radeon 9700上的性能提升。