b9200 发布 - 潜在 MTP 提示处理速度提升

Reddit r/LocalLLaMA 工具

摘要

llama.cpp 版本 b9200 通过避免不必要的 logits 复制,减少了内存流量,从而提升了多令牌预测(MTP)的提示处理速度。

测试进行中……我们都期待 pp 的提升 😆 [https://github.com/ggml-org/llama.cpp/releases/tag/b9200](https://github.com/ggml-org/llama.cpp/releases/tag/b9200) u/am17an 于 13 小时前评论 • 概述 在处理 MTP 的提示处理时,避免复制批次中每个 token 的 logits,因为只需要 pre-norm。这大大减少了内存流量,从而提高了 MTP 的 PP 速度。
查看原文

相似文章

b9180 llama.cpp MTP 已落地

Reddit r/LocalLLaMA

llama.cpp 版本 b9180 已发布,支持多令牌预测 (MTP)。此次发布标志着构建成功,开发者们如释重负。

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。