@rumgewieselt：现在变得疯狂了……三块 1080 Ti（Pascal架构，33GB VRAM）Qwen 3.6 27B MTP 搭配 196K TurboQuant，持续 ~28-30 t/s

X AI KOLs Timeline 2026/05/08 07:01 新闻

local-ai gpu-clustering llm-quantization turboquant performance-benchmark consumer-hardware

摘要

一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理，通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。

现在变得疯狂了…… 三块 1080 Ti（Pascal架构，33GB VRAM） Qwen 3.6 27B MTP 搭配 196K TurboQuant 持续 ~28-30 t/s https://t.co/asoDLIrAad

查看原文

查看缓存全文

缓存时间: 2026/05/08 13:32

现在变得疯狂了……

3张1080 Ti（帕斯卡架构，33GB显存）

Qwen 3.6 27B MTP搭配196K TurboQuant 稳定约28-30 t/s https://t.co/asoDLIrAad

相似文章

Reddit r/LocalLLaMA

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

X AI KOLs Following

使用TurboQuant，用户在GTX1060 3GB上以20 tokens/秒运行Qwen 3.6 35B MoE模型，展现了在陈旧硬件上令人印象深刻的性能。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果：将模型放入显存后，输出速度达到每秒 160 个 token，并以 75 秒的视频处理时间展示了视觉能力。

X AI KOLs Timeline

Qwen 3.6 27B 在16 GB VRAM上运行快速，得益于'Pure Quant'技术，通过MTP达到40 tokens/s，并支持64k上下文，使得本地AI能在RTX 4060 Ti等消费级GPU上运行。

Reddit r/LocalLLaMA

一位用户分享其配置：使用两块改装版RTX 2080 Ti GPU（每块22GB显存）通过llama.cpp以38 token/s运行Qwen 3.6 27B，并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。