@ItsmeAjayKV: 3090 更新：现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s，尚未启用 MTP，预填充速度…

X AI KOLs Timeline 2026/06/17 18:40 新闻

qwen rtx-3090 llama.cpp benchmarking moe quantization

摘要

用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型，实现了超过 90 tokens/s 的推理速度，预填充速度超过 1000 t/s，表明在消费级硬件上本地部署大型语言模型是可行的。

3090 更新：现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s，尚未启用 MTP，预填充速度提升也非常棒，超过了 1000 t/s。我现在还要下载更大的 Q8 模型，以前这不可能，现在可以了，而且我接受速度下降（40-50 t/s 也可以），为了获得质量更好的量化，我会选择它。

查看原文

查看缓存全文

缓存时间: 2026/06/18 00:05

3090 更新：现在搭配 Qwen 3.6-35b-a3b moe（q6_k_xl）。

首次突破了 90 t/s，尚未启用 MTP，预填充速度提升也非常棒，突破了 1000 t/s。

我还打算下载更大的 Q8 模型，以前不是选项，现在是了，而且我可以接受较低的速度（40-50 t/s 没问题）以换取更高精度的量化，所以我会下载。

AJ (@ItsmeAjayKV): 🔓成就解锁：成功运行 Qwen3.6-27b 密集模型🚀🚀

多亏了 RTX 3090，我现在能做到这一点。运行 @Alibaba_Qwen 的 Qwen 3.6 27B（来自 @UnslothAI 的 Q5_K_XL）

快速 llama.cpp 基准测试结果（未启用 MTP）：

1,247 tok/s 提示处理（512 token 提示）

35 tok/s

相似文章

Wow！Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果：将模型放入显存后，输出速度达到每秒 160 个 token，并以 75 秒的视频处理时间展示了视觉能力。

@ItsmeAjayKV: 成就解锁：得益于RTX 3090，现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

X AI KOLs Timeline

用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试，实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。

Qwen 3.5 122B MoE OC 在单张 3090 上以 35 t/s 运行——完整本地堆栈解析

Reddit r/openclaw

在单张 RTX 3090 上使用定制版 llama.cpp（ik_llama.cpp）以 35 t/s 运行 Qwen 3.5 122B MoE 的详细解析，其中采用了融合 MoE 操作和专家层卸载到 CPU 内存的技术，性能显著优于原版 llama.cpp MTP。

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

Qwen3.6-35B-A3B Q4 262k上下文，8GB 3070 Ti上可达+30tps

Reddit r/LocalLLaMA

作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型，实现高达262k上下文、30+tps的详细调优技巧，并指出从Windows切换到Ubuntu Server后速度提升了25%。