@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行,仅用一半显存就打败 35B MoE

X AI KOLs Timeline 模型

摘要

全新的 18B 融合量化模型 Qwopus-GLM-18B-GGUF,仅用一半显存即可在消费级 GPU 上运行,性能超越 35B MoE 模型。

全新 GLM+ Qwen 18B 可在消费级 GPU 上运行,仅用一半显存就打败 35B MoE @KyleHessling1 刚刚发布了修复版 Qwopus-GLM-18B-Merged-GGUF 疯狂 64 层「弗兰肯融合」:两大顶级 Qwen3.5-9B 微调(Opus 推理 + GLM-5.1 蒸馏)合体,这玩意儿在消费级显卡上直接起飞。
查看原文
查看缓存全文

缓存时间: 2026/04/21 10:32

全新 GLM+ Qwen 18B 可在消费级 GPU 上运行,仅用一半显存就能击败 35B MoE
@KyleHessling1 刚刚发布了修复版 Qwopus-GLM-18B-Merged-GGUF
疯狂 64 层“缝合怪”,融合两大顶尖 Qwen3.5-9B 微调(Opus 推理 + GLM-5.1 蒸馏)。
这玩意儿在消费级卡上直接起飞

相似文章

KyleHessling1/Qwopus-GLM-18B-Merged-GGUF

Hugging Face Models Trending

实验性 18B 参数模型:将两个 Qwen-3.5-9B 微调模型堆叠后,用 1000 步 QLoRA“缝合”层边界;生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE,却只占 9.2 GB 显存。

Jackrong/Qwopus-GLM-18B-Merged-GGUF

Hugging Face Models Trending

Jackrong 发布了 Qwopus-GLM-18B-Merged-GGUF,这是一个结合两个 Qwen3.5-9B 微调模型的 64 层“弗兰肯合并”模型,参数规模约 18B。通过 1000 步 LoRA 微调修复了层边界问题。该模型在能力基准测试中达到 90.9%,而显存消耗不到 Qwen 3.6-35B MoE 的一半。