@BlackRainLabs: 使用TurboQuant,我能在GTX1060 3GB上以20 tokens/秒运行qwen 3.6 35b MoE。对于这么小又老的显卡来说,简直疯狂。…

X AI KOLs Following 工具

摘要

使用TurboQuant,用户在GTX1060 3GB上以20 tokens/秒运行Qwen 3.6 35B MoE模型,展现了在陈旧硬件上令人印象深刻的性能。

@no_stp_on_snek 使用TurboQuant,我能在GTX1060 3GB上以20 tokens/秒运行qwen 3.6 35b MoE。对于这么小又老的显卡来说,简直疯狂。我还想再优化一下。
查看原文
查看缓存全文

缓存时间: 2026/06/23 03:44

@no_stp_on_snek 使用 TurboQuant,我能在 GTX1060 3GB 上让 qwen 3.6 35b MoE 跑到 20 tk/s。对于这样一块小巧老旧显卡来说,简直不可思议。我还想再压榨出一点性能。

相似文章

Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。