在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测(MTP)
摘要
在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测,性能提升40%,接受率90%,在MacBook Pro M5 Max上本地运行。
在LLaMA.cpp上结合TurboQuant为QWEN实现了多Token预测。性能提升+40%!接受率90%。在MacBook Pro M5 Max 64GB RAM上本地运行。输出:LLaMA.cpp + TurboQuant: 21 tokens/s;LLaMA.cpp + TurboQuant + MTP: 34 tokens/s。打过补丁的LLaMA.cpp(含MTP和TurboQuant):[https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant) 量化后的Qwen 3.6 27B(及35B)为带MTP的GGUF格式:[https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp](https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp) 本地AI模型应用:[Atomic.Chat](http://Atomic.Chat)
相似文章
LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%
llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。
我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍,这是我的发现(RTX 6000 PRO)。
使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测(MTP)基准测试显示,推理速度最高提升 3.34 倍,最优推测令牌数量因模型和引擎而异。
在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持
在 RTX 5090 上使用 Qwen3.6 模型对 llama.cpp 的新多标记预测(MTP)支持进行技术测试,比较不同提示和 GGUF 量化下开启和关闭 MTP 的性能表现。
成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒
开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。
更多 Qwen3.6-27B MTP 的成功案例,但这次是在双路 Mi50 上
本文在双路 Mi50 GPU 上,使用多令牌预测(MTP)和张量并行技术对 Qwen3.6-27B 模型进行了基准测试,展示了通过 llama.cpp 实现的显著加速效果。