KyleHessling1/Qwopus-GLM-18B-Merged-GGUF
摘要
实验性 18B 参数模型:将两个 Qwen-3.5-9B 微调模型堆叠后,用 1000 步 QLoRA“缝合”层边界;生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE,却只占 9.2 GB 显存。
查看缓存全文
缓存时间: 2026/04/21 13:37
KyleHessling1/Qwopus-GLM-18B-Merged-GGUF · Hugging Face
来源: https://huggingface.co/KyleHessling1/Qwopus-GLM-18B-Merged-GGUF
Qwopus-GLM-18B-Merged(修复版)
64 层“弗兰肯合并”:把 Jackrong 的两版 Qwen3.5-9B 精调模型各 32 层直接堆叠,得到约 18B 参数,再用 1000 步 QLoRA 轻调 弥合层边界。
纯属好玩! 很多人嫌 27B 太大、9B 又不够,于是有了这张 12–16 GB 显存能跑的“中间卡”。结果出奇地好。
修复微调——真的管用
原始合并版有个通病:代码乱码。两层模型在 32 层处硬拼接,导致代码块、HTML、括号匹配经常崩。
我们用 Jackrong 自己的训练数据跑了 1000 步 QLoRA 修复微调,让梯度能跨边界回流,效果显著:
- HTML 生成可直接上线:单页天气仪表盘(导航栏、暗夜模式、5 日预报网格、响应式侧边栏、CSS 变量、JS)一次输出 14 500+ 字符,CSS 大括号、JS 圆括号全部配对,零乱码,完整
</html>闭合。 - 编程基准:11/15(raw)→ 12/15(修复),找回
longest_substring滑窗算法 8/8 用例。 - 总分:39/44 → 40/44(90.9%),仍压 Qwen 3.6 MoE(38/44)一头,显存却不到一半。
- loss 下降 39%(1.02→0.62),证实层边界确实是误差源。
本仓库仅提供修复后的 GGUF(Qwopus-GLM-18B-Healed-Q4_K_M.gguf)。如需原始未修复版做研究,请私信。
实验模型,可能还有怪癖。玩出花或者踩到坑,欢迎 X 上戳我:@KyleHessling1
基准成绩
44 项能力测试覆盖生成、推理、工具调用、Agent、结构化输出、长文本、多语言、编程、性能。
修复合并版 力压全新的 Qwen 3.6-35B-A3B MoE(Q4_K_M,22 GB),体积却只有 9.2 GB:
| 类别 | Qwopus 9B(源) | Qwopus-GLM-18B(修复) | Qwen 3.6-35B MoE |
|---|---|---|---|
| 基础 | 6/6 | 6/6 | 5/6 |
| 推理 | 4/4 | 4/4 | 4/4 |
| 工具调用 | 6/6 | 6/6 | 6/6 |
| Agent | 4/4 | 4/4 | 4/4 |
| 结构化输出 | 2/2 | 2/2 | 2/2 |
| 长文本 | 2/3 | 2/3 | 2/3 |
| 多语言 | 2/2 | 2/2 | 2/2 |
| 编程 | 13/15 | 12/15 | 12/15 |
| 性能 | 2/2 | 2/2 | 1/2 |
| 总分 | 41/44(93.2%) | 40/44(90.9%) | 38/44(86.4%) |
| 吞吐 | 126.0 tok/s | 66.0 tok/s | 174.2 tok/s |
| GGUF 大小 | 5.3 GB | 9.2 GB | 22 GB |
关键结论
- 40/44 通过(90.9%),显存减半仍超 Qwen 3.6 MoE。
- 修复训练把编程能力捞回:11→12/15,与 Qwen 3.6 MoE 持平。
- 工具调用 6/6 满分——单次、可选参数、复杂传参、返回处理全过。
- Agent 推理 4/4 满分——规划、多步工具、错误恢复、自我修正。
- 中文输出密度最高:129–138 CJK 字符。
- ≈66 tok/s 且方差小,推理稳。
- Q4_K_M 下 12 GB 显存可跑,RTX 3060/4070 亲民。
修复微调细节
- 方法:QLoRA(4-bit NF4),LoRA rank 64,目标所有 Attention + MLP 投影。
- 数据:
Jackrong/Qwen3.5-reasoning-700x70% + 编程混合 15% + 多轮对话 15%。 - 训练:1000 步,batch 8,lr 2e-5 cosine,RTX 5090 约 14 小时。
- loss:1.02→0.62,降 39%。
- 结果:编程题 +1,前端代码输出直接可用。
仍翻车的点
3 道编程题没过:函数命名错位 1 处、JS 缺右括号 1 处、pytest 没给代码块。合并痕迹仍在。
前端代码生成极限测试
6 道递进式前端任务,每题几千 token 结构化输出,结果:
| 测试 | 需求 | 通过 | 输出规模 |
|---|---|---|---|
| 天气仪表盘 | 响应式、CSS 变量、暗夜模式、5 日预报网格 | 9/9 | 14.5K |
| 电商详情页 | 图片画廊、色板、数量选择、标签页、手机 sticky 栏 | 12/12 | 16.7K |
| SaaS 落地页 | 渐变动效、打字机动画、滚动视差、轮播、三栏定价 | 13/13 | 24.1K |
| 分析仪表盘 | SVG 柱状图/环形图、可排序表格、折叠侧边栏、暗夜主题 | 13/13 | 22.3K |
| 多步注册 | 三步表单、实时校验、密码强度、动画过渡、成功弹窗 | 12/12 | 23.3K |
| 贪吃蛇 | Canvas 主循环、方向键、碰撞检测、localStorage 最高分 | 11/12 | 11.2K |
| 总计 | 62/63(98.4%) |
全部文件:
- CSS 大括号 100% 平衡
- JS 圆括号 100% 平衡
- 零乱码、零幻觉
- 功能可跑——暗夜切换、IntersectionObserver、SVG 图表、表单验证、游戏循环
唯一小瑕疵:贪吃蛇结尾把 </html> 写成 <html>。
仓库 samples/ 目录已放 6 个 HTML,下载直接浏览器打开验货。
架构
| 属性 | 值 |
|---|---|
| 总层数 | 64(32+32) |
| 总参数量 | ~18B |
| 隐藏维度 | 4096 |
| Attention 头 | 16(4 KV 头,GQA) |
| FFN 中间维 | 12288 |
| 上下文长度 | 262 144 tokens |
| Attention 类型 | Hybrid(每 4 层 full) |
| GGUF Q4_K_M | 9.2 GB |
层级构成
Layers 0–31: Jackrong/Qwopus3.5-9B-v3.5 (Opus 推理蒸馏)
Layers 32–63: Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1 (GLM-5.1 推理蒸馏)
Embedding、LM Head、MTP、视觉编码器:来自 Qwopus3.5-9B-v3.5
源模型
全部功劳归 Jackrong。我只是把层堆起来——质量都是他做的。
Jackrong/Qwopus3.5-9B-v3.5
Qwen3.5-9B 推理增强精调,SFT 数据量约 v3 的 2 倍,侧重结构化推理、工具增强、多步 Agent。
v3.5 设计洞见:“高质量 SFT 数据再翻倍,可进一步提升大模型泛化。”
亮点:Agent 代码测试 43/44 通过(97.7%)、MMLU-Pro 90.36%。
Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1
用 GLM-5.1 教师模型蒸馏的 Qwen3.5-9B,主打结构化推理、指令遵循、问题拆解。
训练数据:GLM-5.1-Reasoning-1M-Cleaned + Qwen3.5-reasoning-700x。
为什么能成
把两种不同蒸馏路线的推理模型叠在一起:
- Qwopus v3.5:Agent 工具、代码生成、Opus 式高效推理
- GLM-5.1 Distill:结构化分步、指令对齐、GLM 式推理骨架
深层网络 + 多元推理训练 → 更鲁棒。 benchmark 证明可行。
合并细节
- 方法:直通层堆叠(passthrough frankenmerge)
- 工具:自写脚本(mergekit 不支持 Qwen3.5 hybrid attention)
- Embedding / LM Head / 视觉 / MTP:取自 Qwopus3.5-9B-v3.5
- 精度:BF16 → Q4_K_M GGUF
- 无额外训练
用法
llama.cpp(推荐)
llama-server \
-m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
--chat-template-file your-qwen35-template.jinja \
--ctx-size 65536 \
--flash-attn on \
--n-gpu-layers 99
Transformers
本仓库仅含 GGUF。需要 BF16 safetensors 做二次微调请 X 上找我。
局限
- 实验性弗兰肯合并,层边界可能偶发连贯或格式问题。
- 代码围栏偶尔缺 ```,但推理内容通常正确。
- 未穷尽测试,周末项目,边角落雷未排。
- 幻觉风险——自回归 LLM 通病。
相关研究
两源模型均引用:Ren et al., 2026 —《Rethinking Generalization in Reasoning SFT》
核心结论:足够量的高质量长思维链数据能让模型学到推理结构,而非单纯拉长输出。
致谢
- Jackrong——真·大佬。模型、数据、 pipeline 全是他的。
- Qwen 团队提供优秀基座
- Unsloth AI 提供高效微调基建
- GLM-5.1 团队 & Kassadin88 提供教师模型与数据
- 开源社区
有问题?
纯图一乐,欢迎 X 上拍砖或晒作品!
@KyleHessling1
引用
@misc{jackrong_qwopus35_9b_v35,
title = {Qwopus3.5-9B-v3.5},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face}
}
@misc{jackrong_qwen35_9b_glm51_distill_v1,
title = {Qwen3.5-9B-GLM5.1-Distill-v1},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face}
}
相似文章
Jackrong/Qwopus-GLM-18B-Merged-GGUF
Jackrong 发布了 Qwopus-GLM-18B-Merged-GGUF,这是一个结合两个 Qwen3.5-9B 微调模型的 64 层“弗兰肯合并”模型,参数规模约 18B。通过 1000 步 LoRA 微调修复了层边界问题。该模型在能力基准测试中达到 90.9%,而显存消耗不到 Qwen 3.6-35B MoE 的一半。
@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行,仅用一半显存就打败 35B MoE
全新的 18B 融合量化模型 Qwopus-GLM-18B-GGUF,仅用一半显存即可在消费级 GPU 上运行,性能超越 35B MoE 模型。
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
一个 35B 参数的 Qwen3.6 模型,使用 Claude-Opus 风格的思维链蒸馏数据微调,并以 GGUF 量化格式发布,可在本地高效推理。
DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF
基于 Qwen 3.6 27B 模型的社区微调去审查版本,提供高精度 GGUF 量化。
Qwen3.6-27B-GGUF 重磅发布!
社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。