在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测(MTP)

Reddit r/LocalLLaMA 工具

摘要

在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测,性能提升40%,接受率90%,在MacBook Pro M5 Max上本地运行。

在LLaMA.cpp上结合TurboQuant为QWEN实现了多Token预测。性能提升+40%!接受率90%。在MacBook Pro M5 Max 64GB RAM上本地运行。输出:LLaMA.cpp + TurboQuant: 21 tokens/s;LLaMA.cpp + TurboQuant + MTP: 34 tokens/s。打过补丁的LLaMA.cpp(含MTP和TurboQuant):[https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant](https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant) 量化后的Qwen 3.6 27B(及35B)为带MTP的GGUF格式:[https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp](https://huggingface.co/collections/AtomicChat/qwen-36-udt-mtp) 本地AI模型应用:[Atomic.Chat](http://Atomic.Chat)
查看原文

相似文章

Unsloth 上的 MTP

Reddit r/LocalLLaMA

Unsloth 发布了支持多 Token 预测 (MTP) 的 Qwen3.6 模型 GGUF 量化版本。

TurboQuant+MTP在ROCm(Llama CPP)上的实现

Reddit r/LocalLLaMA

一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行,实现在24GB显存上支持64k上下文,并具有有竞争力的token速率。