成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA 新闻

摘要

开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。

最近我一直在鼓捣让 MTP 和 TBQ4_0(TurboQuant 的无损 4.25 bpv KV 缓存)在 Qwen3.6-27B 上一起运行。经过一天的 "vibecoding",我终于搞出了个能用的版本。从最初编译时的约 43 token/秒,优化后提升到了 80-87 token/秒。在此基础上,MTP draft 接受率约为 73%。 运行配置: - RTX 4090 24GB - Qwen3.6-27B-Heretic-v2 Q4_K_M 加上移植的 MTP heads - 262K 上下文,TBQ4_0 KV 缓存,MTP draft 3 - Ubuntu 24.04,CUDA 12.x 我不是什么专业人士,所以可能还有优化空间,但目前能正常工作,输出质量也相当不错。如果有人想试试或者找找问题,以下是构建分支: [https://github.com/Indras-Mirror/llama.cpp-mtp](https://github.com/Indras-Mirror/llama.cpp-mtp) 我让 Deepseek 写了份技术细节,感兴趣的朋友可以看看内核架构:[https://indrasmirror.au/blog-mtp-shared-tensors-200k.html](https://indrasmirror.au/blog-mtp-shared-tensors-200k.html)
查看原文

相似文章