@ItsmeAjayKV: 成就解锁:得益于RTX 3090,现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

X AI KOLs Timeline 新闻

摘要

用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。

成就解锁:运行Qwen3.6-27b密集模型 得益于RTX 3090,现在我可以做到了。正在运行 @Alibaba_Qwen Qwen 3.6 27B(来自 @UnslothAI 的 Q5_K_XL) 快速 llama.cpp 基准测试结果(无MTP): - 1,247 tok/s 提示处理(512 token 提示) - 35 tok/s 生成 在约65K上下文时: - 897 tok/s 提示处理 - 34 tok/s 生成 结果已经看起来不错了,Qwen 3.6 35B 在这个配置上会飞起来,回见。
查看原文
查看缓存全文

缓存时间: 2026/06/17 18:01

成就解锁:运行 Qwen3.6-27b 密集模型

感谢 RTX 3090,现在我可以做到这一点。运行 @Alibaba_Qwen 的 Qwen 3.6 27B(Q5_K_XL 版本,来自 @UnslothAI)

快速 llama.cpp 基准测试结果(不含 MTP):

  • 1,247 tok/s 提示处理(512 token 提示)
  • 35 tok/s 生成

在约 65K 上下文中:

  • 897 tok/s 提示处理
  • 34 tok/s 生成

结果已经相当不错了,Qwen 3.6 35B 在这套配置上将会表现飞起,马上回来。

相似文章

Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。