@ItsmeAjayKV: 3090 更新:现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s,尚未启用 MTP,预填充速度…
摘要
用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型,实现了超过 90 tokens/s 的推理速度,预填充速度超过 1000 t/s,表明在消费级硬件上本地部署大型语言模型是可行的。
查看缓存全文
缓存时间: 2026/06/18 00:05
3090 更新: 现在搭配 Qwen 3.6-35b-a3b moe(q6_k_xl)。
首次突破了 90 t/s,尚未启用 MTP,预填充速度提升也非常棒,突破了 1000 t/s。
我还打算下载更大的 Q8 模型,以前不是选项,现在是了,而且我可以接受较低的速度(40-50 t/s 没问题)以换取更高精度的量化,所以我会下载。
AJ (@ItsmeAjayKV): 🔓成就解锁:成功运行 Qwen3.6-27b 密集模型🚀🚀
多亏了 RTX 3090,我现在能做到这一点。运行 @Alibaba_Qwen 的 Qwen 3.6 27B(来自 @UnslothAI 的 Q5_K_XL)
快速 llama.cpp 基准测试结果(未启用 MTP):
- 1,247 tok/s 提示处理(512 token 提示)
- 35 tok/s
相似文章
Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。
一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。
@ItsmeAjayKV: 成就解锁:得益于RTX 3090,现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…
用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。
Qwen 3.5 122B MoE OC 在单张 3090 上以 35 t/s 运行——完整本地堆栈解析
在单张 RTX 3090 上使用定制版 llama.cpp(ik_llama.cpp)以 35 t/s 运行 Qwen 3.5 122B MoE 的详细解析,其中采用了融合 MoE 操作和专家层卸载到 CPU 内存的技术,性能显著优于原版 llama.cpp MTP。
@seclink: 这家伙刚刚在一块单张 3090 显卡上,跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度,以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区,其发展速度简直如神速一般。…
A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.
Qwen3.6-35B-A3B Q4 262k上下文,8GB 3070 Ti上可达+30tps
作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型,实现高达262k上下文、30+tps的详细调优技巧,并指出从Windows切换到Ubuntu Server后速度提升了25%。