成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA 新闻

摘要

开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。

最近我一直在鼓捣让 MTP 和 TBQ4_0(TurboQuant 的无损 4.25 bpv KV 缓存)在 Qwen3.6-27B 上一起运行。经过一天的 "vibecoding",我终于搞出了个能用的版本。从最初编译时的约 43 token/秒,优化后提升到了 80-87 token/秒。在此基础上,MTP draft 接受率约为 73%。 运行配置: - RTX 4090 24GB - Qwen3.6-27B-Heretic-v2 Q4_K_M 加上移植的 MTP heads - 262K 上下文,TBQ4_0 KV 缓存,MTP draft 3 - Ubuntu 24.04,CUDA 12.x 我不是什么专业人士,所以可能还有优化空间,但目前能正常工作,输出质量也相当不错。如果有人想试试或者找找问题,以下是构建分支: [https://github.com/Indras-Mirror/llama.cpp-mtp](https://github.com/Indras-Mirror/llama.cpp-mtp) 我让 Deepseek 写了份技术细节,感兴趣的朋友可以看看内核架构:[https://indrasmirror.au/blog-mtp-shared-tensors-200k.html](https://indrasmirror.au/blog-mtp-shared-tensors-200k.html)
查看原文

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。