club-3090 为 Qwen3.6-27B 添加实验性 FP8 支持!
摘要
club-3090 为 Qwen3.6-27B 添加了实验性 FP8 支持,使得配备双 RTX 3090 的机器能够以与未量化 BF16 相似的性能运行该模型。
终于来了!我们许多使用双 RTX 3090 机器的人一直在期待。club-3090 推出了对 **Qwen3.6-27B** 的实验性支持,采用 **FP8 量化**。官方 Qwen/Qwen3.6-27B-FP8 模型的性能几乎与原始的未量化 BF16 相同。[https://github.com/noonghunna/club-3090/blob/master/models/qwen3.6-27b/vllm/compose/dual/fp8/mtp.yml](https://github.com/noonghunna/club-3090/blob/master/models/qwen3.6-27b/vllm/compose/dual/fp8/mtp.yml)
相似文章
Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。
一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。
我们真的都能搞定,对吧?双3090配置。
一位用户分享了他们搭建双3090 GPU系统以本地运行Qwen 3.6 27b模型的经验,在切换到Ubuntu并使用带有自定义补丁的club-3090工具后,实现了超过100 tokens/秒的速度。他们对本地AI的未来感到兴奋。
Qwen3.6-35B-A3B APEX 在单张 RTX 3090 上——充分发挥其潜力
在 RTX 3090 上运行 Qwen3.6-35B-A3B APEX 模型的详细指南:比较两个 llama.cpp 分支及量化方法,以达到最佳速度与质量。
更新:适用于ik_llama.cpp的Qwen-27B-IQ4_KS和Qwen-27B-IQ_KS_KT量化版本,尤其针对16GB显存的NVIDIA显卡
面向16GB显存NVIDIA GPU优化的新型Qwen3.6-27B GGUF量化版本,包含实验性Trellis变体,并附带了困惑度基准测试。
试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode,真不敢相信居然能用
用户报告称,在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf,200K 上下文速度约 50 tok/s,编码表现出乎意料地可用,标志着本地模型质量大幅跃升。