在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测(MTP)

Reddit r/LocalLLaMA 工具

摘要

在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测,性能提升40%,接受率90%,在MacBook Pro M5 Max上本地运行。

在LLaMA.cpp上结合TurboQuant为QWEN实现了多Token预测。性能提升+40%!接受率90%。在MacBook Pro M5 Max 64GB RAM上本地运行。输出:LLaMA.cpp + TurboQuant: 21 tokens/s;LLaMA.cpp + TurboQuant + MTP: 34 tokens/s。打过补丁的LLaMA.cpp(含MTP和TurboQuant):[https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant) 量化后的Qwen 3.6 27B(及35B)为带MTP的GGUF格式:[https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp](https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp) 本地AI模型应用:[Atomic.Chat](http://Atomic.Chat)
查看原文

相似文章