成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA 2026/05/08 21:15 新闻

optimization performance quantization mtp llama.cpp qwen rtx-4090

摘要

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

最近我一直在鼓捣让 MTP 和 TBQ4_0（TurboQuant 的无损 4.25 bpv KV 缓存）在 Qwen3.6-27B 上一起运行。经过一天的 "vibecoding"，我终于搞出了个能用的版本。从最初编译时的约 43 token/秒，优化后提升到了 80-87 token/秒。在此基础上，MTP draft 接受率约为 73%。运行配置： - RTX 4090 24GB - Qwen3.6-27B-Heretic-v2 Q4_K_M 加上移植的 MTP heads - 262K 上下文，TBQ4_0 KV 缓存，MTP draft 3 - Ubuntu 24.04，CUDA 12.x 我不是什么专业人士，所以可能还有优化空间，但目前能正常工作，输出质量也相当不错。如果有人想试试或者找找问题，以下是构建分支： [https://github.com/Indras-Mirror/llama.cpp-mtp](https://github.com/Indras-Mirror/llama.cpp-mtp) 我让 Deepseek 写了份技术细节，感兴趣的朋友可以看看内核架构：[https://indrasmirror.au/blog-mtp-shared-tensors-200k.html](https://indrasmirror.au/blog-mtp-shared-tensors-200k.html)

查看原文

相似文章

@rumgewieselt：现在变得疯狂了……三块 1080 Ti（Pascal架构，33GB VRAM）Qwen 3.6 27B MTP 搭配 196K TurboQuant，持续 ~28-30 t/s

X AI KOLs Timeline

一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理，通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

X AI KOLs Timeline

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化，256k 上下文、10 智能体并发，峰值达 200 tok/s，平均 136 tok/s。

在 2x3090 NVLINK 上对 Qwen 3.6 27B MTP 进行基准测试

Reddit r/LocalLLaMA

对 Qwen 3.6 27B MTP 在 4 张 RTX 3090 GPU 上的基准分析表明，基于 NVLink 的张量并行相较于 PCIe 配置可实现显著的吞吐量提升（最高达 +53%）。

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

RTX Pro 4500 Blackwell - Qwen 3.6 27B？