@ItsmeAjayKV: 成就解锁：得益于RTX 3090，现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

X AI KOLs Timeline 2026/06/17 16:23 新闻

qwen llama-cpp benchmark rtx3090 local-llm open-source

摘要

用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试，实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。

成就解锁：运行Qwen3.6-27b密集模型得益于RTX 3090，现在我可以做到了。正在运行 @Alibaba_Qwen Qwen 3.6 27B（来自 @UnslothAI 的 Q5_K_XL）快速 llama.cpp 基准测试结果（无MTP）： - 1,247 tok/s 提示处理（512 token 提示） - 35 tok/s 生成在约65K上下文时： - 897 tok/s 提示处理 - 34 tok/s 生成结果已经看起来不错了，Qwen 3.6 35B 在这个配置上会飞起来，回见。

查看原文

查看缓存全文

缓存时间: 2026/06/17 18:01

成就解锁：运行 Qwen3.6-27b 密集模型

感谢 RTX 3090，现在我可以做到这一点。运行 @Alibaba_Qwen 的 Qwen 3.6 27B（Q5_K_XL 版本，来自 @UnslothAI）

快速 llama.cpp 基准测试结果（不含 MTP）：

1,247 tok/s 提示处理（512 token 提示）
35 tok/s 生成

在约 65K 上下文中：

897 tok/s 提示处理
34 tok/s 生成

结果已经相当不错了，Qwen 3.6 35B 在这套配置上将会表现飞起，马上回来。

相似文章

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

@ItsmeAjayKV: 成就解锁：得益于RTX 3090，现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

相似文章

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

Wow！Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

@ItsmeAjayKV: 3090 更新：现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s，尚未启用 MTP，预填充速度…

Qwen 3.5 122B MoE OC 在单张 3090 上以 35 t/s 运行——完整本地堆栈解析

提交意见反馈