club-3090 为 Qwen3.6-27B 添加实验性 FP8 支持！

Reddit r/LocalLLaMA 2026/06/07 22:07 工具

fp8 quantization qwen3 rtx-3090 gpu open-source experimental

摘要

club-3090 为 Qwen3.6-27B 添加了实验性 FP8 支持，使得配备双 RTX 3090 的机器能够以与未量化 BF16 相似的性能运行该模型。

终于来了！我们许多使用双 RTX 3090 机器的人一直在期待。club-3090 推出了对 **Qwen3.6-27B** 的实验性支持，采用 **FP8 量化**。官方 Qwen/Qwen3.6-27B-FP8 模型的性能几乎与原始的未量化 BF16 相同。[https://github.com/noonghunna/club-3090/blob/master/models/qwen3.6-27b/vllm/compose/dual/fp8/mtp.yml](https://github.com/noonghunna/club-3090/blob/master/models/qwen3.6-27b/vllm/compose/dual/fp8/mtp.yml)

查看原文

相似文章

Wow！Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果：将模型放入显存后，输出速度达到每秒 160 个 token，并以 75 秒的视频处理时间展示了视觉能力。

我们真的都能搞定，对吧？双3090配置。

Reddit r/LocalLLaMA

一位用户分享了他们搭建双3090 GPU系统以本地运行Qwen 3.6 27b模型的经验，在切换到Ubuntu并使用带有自定义补丁的club-3090工具后，实现了超过100 tokens/秒的速度。他们对本地AI的未来感到兴奋。

试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode，真不敢相信居然能用

Reddit r/LocalLLaMA

用户报告称，在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf，200K 上下文速度约 50 tok/s，编码表现出乎意料地可用，标志着本地模型质量大幅跃升。

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

Qwen/Qwen3.6-27B-FP8

Hugging Face Models Trending

阿里巴巴发布 Qwen3.6-27B-FP8，一款 27B 参数的 FP8 量化模型，在代理式编码与推理基准上表现强劲，现已上架 Hugging Face。