b9200 发布 - 潜在 MTP 提示处理速度提升
摘要
llama.cpp 版本 b9200 通过避免不必要的 logits 复制,减少了内存流量,从而提升了多令牌预测(MTP)的提示处理速度。
测试进行中……我们都期待 pp 的提升 😆 [https://github.com/ggml-org/llama.cpp/releases/tag/b9200](https://github.com/ggml-org/llama.cpp/releases/tag/b9200) u/am17an 于 13 小时前评论 • 概述 在处理 MTP 的提示处理时,避免复制批次中每个 token 的 logits,因为只需要 pre-norm。这大大减少了内存流量,从而提高了 MTP 的 PP 速度。
相似文章
b9180 llama.cpp MTP 已落地
llama.cpp 版本 b9180 已发布,支持多令牌预测 (MTP)。此次发布标志着构建成功,开发者们如释重负。
PSA:如果您几天未更新Llama.cpp,发现MTP性能不佳,请更新Llama.cpp。
更新Llama.cpp可获得显著的token生成速度提升,最高达1.5-1.8倍,并改善提示处理。
MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp
一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。
llama: 在 MTP 中避免在提示解码期间复制 logits · 由 am17an 提交 · PR #23198 · ggml-org/llama.cpp
此拉取请求通过避免在多令牌预测的提示解码过程中不必要地复制 logits,优化了 llama.cpp,从而提升推理性能。
MTP 支持已合并至 llama.cpp
为 llama.cpp 添加 MTP(多令牌预测)支持的拉取请求已合并至 master 分支。