在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测（MTP）

Reddit r/LocalLLaMA 2026/05/14 02:35 工具

multi-token-prediction qwen llama-cpp turboquant performance local-inference quantization

摘要

在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测，性能提升40%，接受率90%，在MacBook Pro M5 Max上本地运行。

在LLaMA.cpp上结合TurboQuant为QWEN实现了多Token预测。性能提升+40%！接受率90%。在MacBook Pro M5 Max 64GB RAM上本地运行。输出：LLaMA.cpp + TurboQuant: 21 tokens/s；LLaMA.cpp + TurboQuant + MTP: 34 tokens/s。打过补丁的LLaMA.cpp（含MTP和TurboQuant）：[https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant) 量化后的Qwen 3.6 27B（及35B）为带MTP的GGUF格式：[https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp](https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp) 本地AI模型应用：[Atomic.Chat](http://Atomic.Chat)

查看原文

在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测（MTP）

相似文章

LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍，这是我的发现（RTX 6000 PRO）。

在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

更多 Qwen3.6-27B MTP 的成功案例，但这次是在双路 Mi50 上

提交意见反馈