@no_stp_on_snek:首次在我的 llamacpp 分支上测试了 MTP,使用 turbo4 sym。GX10 硬件。使用 MoE 模型:llmfa…
摘要
在 llamacpp 分支上使用基于 Qwen 的 MoE 模型测试了多 token 预测,相比 fp16 基线获得了 +0.41% 的 PPL 提升。
昨晚首次在我的 llamacpp 分支上测试了 MTP,使用 turbo4 sym。
GX10 硬件。
使用 MoE 模型:llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved
+0.41 % PPL 对比 fp16 基线 https://t.co/pwzhfphHCK
查看缓存全文
缓存时间: 2026/05/23 08:01
昨晚在我的 llamacpp 分支上首次测试了 MTP,搭配 turbo4 sym 使用。
硬件:GX10。
使用的 MoE 模型:llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved
与 fp16 基线相比,PPL 降低了 0.41% https://t.co/pwzhfphHCK
相似文章
在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持
在 RTX 5090 上使用 Qwen3.6 模型对 llama.cpp 的新多标记预测(MTP)支持进行技术测试,比较不同提示和 GGUF 量化下开启和关闭 MTP 的性能表现。
我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍,这是我的发现(RTX 6000 PRO)。
使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测(MTP)基准测试显示,推理速度最高提升 3.34 倍,最优推测令牌数量因模型和引擎而异。
@julien_c: 我注意到网上有些困惑,关于如何以最简单的方式运行带MTP(多令牌预测)的llama.cpp……
Julien C 解释了如何运行带有MTP(多令牌预测)的llama.cpp,以实现约2倍的生成速度,可以使用Dense 27B或MoE 35B模型,并提供了安装和配置说明。
@ivanfioravanti: llamacpp 即将支持 MTP!
llamacpp 即将支持多令牌预测(MTP),提升推理效率。
在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测(MTP)
在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测,性能提升40%,接受率90%,在MacBook Pro M5 Max上本地运行。