@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就打败 35B MoE

X AI KOLs Timeline 2026/04/20 19:16 模型

摘要

全新的 18B 融合量化模型 Qwopus-GLM-18B-GGUF，仅用一半显存即可在消费级 GPU 上运行，性能超越 35B MoE 模型。

全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就打败 35B MoE @KyleHessling1 刚刚发布了修复版 Qwopus-GLM-18B-Merged-GGUF 疯狂 64 层「弗兰肯融合」：两大顶级 Qwen3.5-9B 微调（Opus 推理 + GLM-5.1 蒸馏）合体，这玩意儿在消费级显卡上直接起飞。

查看原文

查看缓存全文

缓存时间: 2026/04/21 10:32

全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就能击败 35B MoE
@KyleHessling1 刚刚发布了修复版 Qwopus-GLM-18B-Merged-GGUF
疯狂 64 层“缝合怪”，融合两大顶尖 Qwen3.5-9B 微调（Opus 推理 + GLM-5.1 蒸馏）。
这玩意儿在消费级卡上直接起飞

@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就打败 35B MoE

相似文章

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

KyleHessling1/Qwopus-GLM-18B-Merged-GGUF

Jackrong/Qwopus-GLM-18B-Merged-GGUF

@sudoingX: 那些用16GB显卡的，别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB，在……上实测

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

提交意见反馈