@no_stp_on_snek：首次在我的 llamacpp 分支上测试了 MTP，使用 turbo4 sym。GX10 硬件。使用 MoE 模型：llmfa…

X AI KOLs Following 2026/05/22 13:34 模型

multi-token-prediction llamacpp moe open-source inference qwen ppl

摘要

在 llamacpp 分支上使用基于 Qwen 的 MoE 模型测试了多 token 预测，相比 fp16 基线获得了 +0.41% 的 PPL 提升。

昨晚首次在我的 llamacpp 分支上测试了 MTP，使用 turbo4 sym。 GX10 硬件。使用 MoE 模型：llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved +0.41 % PPL 对比 fp16 基线 https://t.co/pwzhfphHCK

查看原文

查看缓存全文

缓存时间: 2026/05/23 08:01

昨晚在我的 llamacpp 分支上首次测试了 MTP，搭配 turbo4 sym 使用。

硬件：GX10。

使用的 MoE 模型：llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved

与 fp16 基线相比，PPL 降低了 0.41% https://t.co/pwzhfphHCK

相似文章

在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持

Reddit r/LocalLLaMA

在 RTX 5090 上使用 Qwen3.6 模型对 llama.cpp 的新多标记预测（MTP）支持进行技术测试，比较不同提示和 GGUF 量化下开启和关闭 MTP 的性能表现。

我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍，这是我的发现（RTX 6000 PRO）。

Reddit r/LocalLLaMA

使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测（MTP）基准测试显示，推理速度最高提升 3.34 倍，最优推测令牌数量因模型和引擎而异。

@julien_c: 我注意到网上有些困惑，关于如何以最简单的方式运行带MTP（多令牌预测）的llama.cpp……

X AI KOLs Following

Julien C 解释了如何运行带有MTP（多令牌预测）的llama.cpp，以实现约2倍的生成速度，可以使用Dense 27B或MoE 35B模型，并提供了安装和配置说明。

@ivanfioravanti: llamacpp 即将支持 MTP！

X AI KOLs Following

llamacpp 即将支持多令牌预测（MTP），提升推理效率。

在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测（MTP）

Reddit r/LocalLLaMA

在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测，性能提升40%，接受率90%，在MacBook Pro M5 Max上本地运行。

相似文章

在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持

我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍，这是我的发现（RTX 6000 PRO）。

@julien_c: 我注意到网上有些困惑，关于如何以最简单的方式运行带MTP（多令牌预测）的llama.cpp……

@ivanfioravanti: llamacpp 即将支持 MTP！

在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测（MTP）

提交意见反馈