@BlackRainLabs: 使用TurboQuant,我能在GTX1060 3GB上以20 tokens/秒运行qwen 3.6 35b MoE。对于这么小又老的显卡来说,简直疯狂。…
摘要
使用TurboQuant,用户在GTX1060 3GB上以20 tokens/秒运行Qwen 3.6 35B MoE模型,展现了在陈旧硬件上令人印象深刻的性能。
查看缓存全文
缓存时间: 2026/06/23 03:44
@no_stp_on_snek 使用 TurboQuant,我能在 GTX1060 3GB 上让 qwen 3.6 35b MoE 跑到 20 tk/s。对于这样一块小巧老旧显卡来说,简直不可思议。我还想再压榨出一点性能。
相似文章
@rumgewieselt:现在变得疯狂了……三块 1080 Ti(Pascal架构,33GB VRAM)Qwen 3.6 27B MTP 搭配 196K TurboQuant,持续 ~28-30 t/s
一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理,通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。
成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒
开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。
双RTX 4060 Ti上Qwen3.6 q4xl达到125 tok/s,性价比惊人
有用户报告称,在两张RTX 4060 Ti显卡上运行Qwen3.6 q4xl达到了每秒125个token,强调性价比出色,并想知道进一步优化是否能达到150 tok/s。
Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。
一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。
@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快!Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……
Qwen 3.6 27B 在16 GB VRAM上运行快速,得益于'Pure Quant'技术,通过MTP达到40 tokens/s,并支持64k上下文,使得本地AI能在RTX 4060 Ti等消费级GPU上运行。