在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测(MTP)
摘要
在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测,性能提升40%,接受率90%,在MacBook Pro M5 Max上本地运行。
在LLaMA.cpp上结合TurboQuant为QWEN实现了多Token预测。性能提升+40%!接受率90%。在MacBook Pro M5 Max 64GB RAM上本地运行。输出:LLaMA.cpp + TurboQuant: 21 tokens/s;LLaMA.cpp + TurboQuant + MTP: 34 tokens/s。打过补丁的LLaMA.cpp(含MTP和TurboQuant):[https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant) 量化后的Qwen 3.6 27B(及35B)为带MTP的GGUF格式:[https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp](https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp) 本地AI模型应用:[Atomic.Chat](http://Atomic.Chat)
相似文章
LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%
llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。
成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒
开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。
更多 Qwen3.6-27B MTP 的成功案例,但这次是在双路 Mi50 上
本文在双路 Mi50 GPU 上,使用多令牌预测(MTP)和张量并行技术对 Qwen3.6-27B 模型进行了基准测试,展示了通过 llama.cpp 实现的显著加速效果。
Unsloth 上的 MTP
Unsloth 发布了支持多 Token 预测 (MTP) 的 Qwen3.6 模型 GGUF 量化版本。
TurboQuant+MTP在ROCm(Llama CPP)上的实现
一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行,实现在24GB显存上支持64k上下文,并具有有竞争力的token速率。