@BlackRainLabs: 使用TurboQuant，我能在GTX1060 3GB上以20 tokens/秒运行qwen 3.6 35b MoE。对于这么小又老的显卡来说，简直疯狂。…

X AI KOLs Following 2026/06/22 17:04 工具

quantization turboquant qwen mixture-of-experts edge-inference performance gpu

摘要

使用TurboQuant，用户在GTX1060 3GB上以20 tokens/秒运行Qwen 3.6 35B MoE模型，展现了在陈旧硬件上令人印象深刻的性能。

@no_stp_on_snek 使用TurboQuant，我能在GTX1060 3GB上以20 tokens/秒运行qwen 3.6 35b MoE。对于这么小又老的显卡来说，简直疯狂。我还想再优化一下。

查看原文

查看缓存全文

缓存时间: 2026/06/23 03:44

@no_stp_on_snek 使用 TurboQuant，我能在 GTX1060 3GB 上让 qwen 3.6 35b MoE 跑到 20 tk/s。对于这样一块小巧老旧显卡来说，简直不可思议。我还想再压榨出一点性能。

相似文章

X AI KOLs Timeline

一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理，通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。

Reddit r/LocalLLaMA

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

Reddit r/LocalLLaMA

有用户报告称，在两张RTX 4060 Ti显卡上运行Qwen3.6 q4xl达到了每秒125个token，强调性价比出色，并想知道进一步优化是否能达到150 tok/s。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果：将模型放入显存后，输出速度达到每秒 160 个 token，并以 75 秒的视频处理时间展示了视觉能力。

X AI KOLs Timeline

Qwen 3.6 27B 在16 GB VRAM上运行快速，得益于'Pure Quant'技术，通过MTP达到40 tokens/s，并支持64k上下文，使得本地AI能在RTX 4060 Ti等消费级GPU上运行。