MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA 工具

摘要

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。

我想知道使用标志时的结果差异:**GGML\_CUDA\_ENABLE\_UNIFIED\_MEMORY=1** vs **MTP+GGML\_CUDA\_ENABLE\_UNIFIED\_MEMORY=1** 结果相当有趣 **无 MTP 时为 49 tok/s** vs **有 MTP 时为 64 tok/s** **PC: RTX5090+128GB DDR5 5600 CL36+Ryzen 9 9950X3D** **Model: Qwen3.6-27B-Q8\_0.gguf (Unsloth with MTP)** Command: `CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \` `-m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \` `--threads 16 \` `-c 262144 -fa on -np 1 \` `--spec-type mtp --spec-draft-n-max 3 \` `--webui-mcp-proxy \` `--chat-template-kwargs '{"preserve_thinking": true}' \` `--host` [0.0.0.0](http://0.0.0.0) `\` `--port 8090 \` `--jinja`
查看原文

相似文章