@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行,仅用一半显存就打败 35B MoE
摘要
全新的 18B 融合量化模型 Qwopus-GLM-18B-GGUF,仅用一半显存即可在消费级 GPU 上运行,性能超越 35B MoE 模型。
查看缓存全文
缓存时间: 2026/04/21 10:32
全新 GLM+ Qwen 18B 可在消费级 GPU 上运行,仅用一半显存就能击败 35B MoE
@KyleHessling1 刚刚发布了修复版 Qwopus-GLM-18B-Merged-GGUF
疯狂 64 层“缝合怪”,融合两大顶尖 Qwen3.5-9B 微调(Opus 推理 + GLM-5.1 蒸馏)。
这玩意儿在消费级卡上直接起飞
相似文章
在老款GTX 1080(8GB显存,128k上下文)上,约30B的MoE模型达到24+ tok/s的推理速度
一位开发者展示了如何使用llama.cpp,通过MoE卸载和TurboQuant KV缓存量化技术,在老款GTX 1080(8GB显存)上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型,达到24+ tok/s的推理速度,并揭示了针对Gemma MTP投机解码的优化技巧。
KyleHessling1/Qwopus-GLM-18B-Merged-GGUF
实验性 18B 参数模型:将两个 Qwen-3.5-9B 微调模型堆叠后,用 1000 步 QLoRA“缝合”层边界;生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE,却只占 9.2 GB 显存。
Jackrong/Qwopus-GLM-18B-Merged-GGUF
Jackrong 发布了 Qwopus-GLM-18B-Merged-GGUF,这是一个结合两个 Qwen3.5-9B 微调模型的 64 层“弗兰肯合并”模型,参数规模约 18B。通过 1000 步 LoRA 微调修复了层边界问题。该模型在能力基准测试中达到 90.9%,而显存消耗不到 Qwen 3.6-35B MoE 的一半。
@sudoingX: 那些用16GB显卡的,别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB,在……上实测
一种名为 luce spark 的技术让 Qwen 35B-a3B MoE 模型能够在16GB GPU(如RTX 3090)上运行,通过学习哪些专家被频繁使用,并将其余专家从内存流式加载,实现约100 tok/s,且不受显存瓶颈限制。
@cniongolo: 我不确定大家是否已经意识到,你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。