b9200 发布 - 潜在 MTP 提示处理速度提升

Reddit r/LocalLLaMA 2026/05/17 23:46 工具

llama-cpp mtp inference performance open-source github

摘要

llama.cpp 版本 b9200 通过避免不必要的 logits 复制，减少了内存流量，从而提升了多令牌预测（MTP）的提示处理速度。

测试进行中……我们都期待 pp 的提升 😆 [https://github.com/ggml-org/llama.cpp/releases/tag/b9200](https://github.com/ggml-org/llama.cpp/releases/tag/b9200) u/am17an 于 13 小时前评论 • 概述在处理 MTP 的提示处理时，避免复制批次中每个 token 的 logits，因为只需要 pre-norm。这大大减少了内存流量，从而提高了 MTP 的 PP 速度。

查看原文

相似文章

b9180 llama.cpp MTP 已落地

Reddit r/LocalLLaMA

llama.cpp 版本 b9180 已发布，支持多令牌预测 (MTP)。此次发布标志着构建成功，开发者们如释重负。

PSA：如果您几天未更新Llama.cpp，发现MTP性能不佳，请更新Llama.cpp。

Reddit r/LocalLLaMA

更新Llama.cpp可获得显著的token生成速度提升，最高达1.5-1.8倍，并改善提示处理。

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试，比较启用和未启用 MTP（多令牌预测）时的性能。结果显示，在 RTX5090 上使用 Qwen3.6-27B 模型时，启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。

llama: 在 MTP 中避免在提示解码期间复制 logits · 由 am17an 提交 · PR #23198 · ggml-org/llama.cpp

Reddit r/LocalLLaMA

此拉取请求通过避免在多令牌预测的提示解码过程中不必要地复制 logits，优化了 llama.cpp，从而提升推理性能。

MTP 支持已合并至 llama.cpp

Reddit r/LocalLLaMA

为 llama.cpp 添加 MTP（多令牌预测）支持的拉取请求已合并至 master 分支。

相似文章

b9180 llama.cpp MTP 已落地

PSA：如果您几天未更新Llama.cpp，发现MTP性能不佳，请更新Llama.cpp。

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

llama: 在 MTP 中避免在提示解码期间复制 logits · 由 am17an 提交 · PR #23198 · ggml-org/llama.cpp

MTP 支持已合并至 llama.cpp

提交意见反馈