@ItsmeAjayKV: 3090 更新:现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s,尚未启用 MTP,预填充速度…

X AI KOLs Timeline 新闻

摘要

用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型,实现了超过 90 tokens/s 的推理速度,预填充速度超过 1000 t/s,表明在消费级硬件上本地部署大型语言模型是可行的。

3090 更新: 现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。 首次突破 90 t/s,尚未启用 MTP,预填充速度提升也非常棒,超过了 1000 t/s。 我现在还要下载更大的 Q8 模型,以前这不可能,现在可以了,而且我接受速度下降(40-50 t/s 也可以),为了获得质量更好的量化,我会选择它。
查看原文
查看缓存全文

缓存时间: 2026/06/18 00:05

3090 更新: 现在搭配 Qwen 3.6-35b-a3b moe(q6_k_xl)。

首次突破了 90 t/s,尚未启用 MTP,预填充速度提升也非常棒,突破了 1000 t/s。

我还打算下载更大的 Q8 模型,以前不是选项,现在是了,而且我可以接受较低的速度(40-50 t/s 没问题)以换取更高精度的量化,所以我会下载。

AJ (@ItsmeAjayKV): 🔓成就解锁:成功运行 Qwen3.6-27b 密集模型🚀🚀

多亏了 RTX 3090,我现在能做到这一点。运行 @Alibaba_Qwen 的 Qwen 3.6 27B(来自 @UnslothAI 的 Q5_K_XL)

快速 llama.cpp 基准测试结果(未启用 MTP):

  • 1,247 tok/s 提示处理(512 token 提示)
  • 35 tok/s

相似文章

Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。