KyleHessling1/Qwopus-GLM-18B-Merged-GGUF

Hugging Face Models Trending 2026/04/17 19:03 模型

frankenmerge gguf qwen 18b qlora healing

摘要

实验性 18B 参数模型：将两个 Qwen-3.5-9B 微调模型堆叠后，用 1000 步 QLoRA“缝合”层边界；生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE，却只占 9.2 GB 显存。

任务：文本生成标签：gguf, merge, frankenmerge, qwen3.5, reasoning, text-generation, conversational, unsloth, agent, tool-use, chain-of-thought, en, zh, ko, ja, fr, de, es, arxiv:2604.06628, base_model:Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1, base_model:merge:Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1, base_model:Jackrong/Qwopus3.5-9B-v3.5, base_model:merge:Jackrong/Qwopus3.5-9B-v3.5, license:apache-2.0, endpoints_compatible, region:us

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 13:37

KyleHessling1/Qwopus-GLM-18B-Merged-GGUF · Hugging Face

来源: https://huggingface.co/KyleHessling1/Qwopus-GLM-18B-Merged-GGUF

Qwopus-GLM-18B-Merged（修复版）

64 层“弗兰肯合并”：把 Jackrong 的两版 Qwen3.5-9B 精调模型各 32 层直接堆叠，得到约 18B 参数，再用 1000 步 QLoRA 轻调 弥合层边界。
纯属好玩！ 很多人嫌 27B 太大、9B 又不够，于是有了这张 12–16 GB 显存能跑的“中间卡”。结果出奇地好。

修复微调——真的管用

原始合并版有个通病：代码乱码。两层模型在 32 层处硬拼接，导致代码块、HTML、括号匹配经常崩。
我们用 Jackrong 自己的训练数据跑了 1000 步 QLoRA 修复微调，让梯度能跨边界回流，效果显著：

HTML 生成可直接上线：单页天气仪表盘（导航栏、暗夜模式、5 日预报网格、响应式侧边栏、CSS 变量、JS）一次输出 14 500+ 字符，CSS 大括号、JS 圆括号全部配对，零乱码，完整 </html> 闭合。
编程基准：11/15（raw）→ 12/15（修复），找回 longest_substring 滑窗算法 8/8 用例。
总分：39/44 → 40/44（90.9%），仍压 Qwen 3.6 MoE（38/44）一头，显存却不到一半。
loss 下降 39%（1.02→0.62），证实层边界确实是误差源。

本仓库仅提供修复后的 GGUF（Qwopus-GLM-18B-Healed-Q4_K_M.gguf）。如需原始未修复版做研究，请私信。

实验模型，可能还有怪癖。玩出花或者踩到坑，欢迎 X 上戳我：@KyleHessling1

基准成绩

44 项能力测试覆盖生成、推理、工具调用、Agent、结构化输出、长文本、多语言、编程、性能。

修复合并版 力压全新的 Qwen 3.6-35B-A3B MoE（Q4_K_M，22 GB），体积却只有 9.2 GB：

类别	Qwopus 9B（源）	Qwopus-GLM-18B（修复）	Qwen 3.6-35B MoE
基础	6/6	6/6	5/6
推理	4/4	4/4	4/4
工具调用	6/6	6/6	6/6
Agent	4/4	4/4	4/4
结构化输出	2/2	2/2	2/2
长文本	2/3	2/3	2/3
多语言	2/2	2/2	2/2
编程	13/15	12/15	12/15
性能	2/2	2/2	1/2
总分	41/44（93.2%）	40/44（90.9%）	38/44（86.4%）
吞吐	126.0 tok/s	66.0 tok/s	174.2 tok/s
GGUF 大小	5.3 GB	9.2 GB	22 GB

关键结论

40/44 通过（90.9%），显存减半仍超 Qwen 3.6 MoE。
修复训练把编程能力捞回：11→12/15，与 Qwen 3.6 MoE 持平。
工具调用 6/6 满分——单次、可选参数、复杂传参、返回处理全过。
Agent 推理 4/4 满分——规划、多步工具、错误恢复、自我修正。
中文输出密度最高：129–138 CJK 字符。
≈66 tok/s 且方差小，推理稳。
Q4_K_M 下 12 GB 显存可跑，RTX 3060/4070 亲民。

修复微调细节

方法：QLoRA（4-bit NF4），LoRA rank 64，目标所有 Attention + MLP 投影。
数据：Jackrong/Qwen3.5-reasoning-700x 70% + 编程混合 15% + 多轮对话 15%。
训练：1000 步，batch 8，lr 2e-5 cosine，RTX 5090 约 14 小时。
loss：1.02→0.62，降 39%。
结果：编程题 +1，前端代码输出直接可用。

仍翻车的点

3 道编程题没过：函数命名错位 1 处、JS 缺右括号 1 处、pytest 没给代码块。合并痕迹仍在。

前端代码生成极限测试

6 道递进式前端任务，每题几千 token 结构化输出，结果：

测试	需求	通过	输出规模
天气仪表盘	响应式、CSS 变量、暗夜模式、5 日预报网格	9/9	14.5K
电商详情页	图片画廊、色板、数量选择、标签页、手机 sticky 栏	12/12	16.7K
SaaS 落地页	渐变动效、打字机动画、滚动视差、轮播、三栏定价	13/13	24.1K
分析仪表盘	SVG 柱状图/环形图、可排序表格、折叠侧边栏、暗夜主题	13/13	22.3K
多步注册	三步表单、实时校验、密码强度、动画过渡、成功弹窗	12/12	23.3K
贪吃蛇	Canvas 主循环、方向键、碰撞检测、localStorage 最高分	11/12	11.2K
总计		62/63（98.4%）

全部文件：

CSS 大括号 100% 平衡
JS 圆括号 100% 平衡
零乱码、零幻觉
功能可跑——暗夜切换、IntersectionObserver、SVG 图表、表单验证、游戏循环

唯一小瑕疵：贪吃蛇结尾把 </html> 写成 <html>。
仓库 samples/ 目录已放 6 个 HTML，下载直接浏览器打开验货。

架构

属性	值
总层数	64（32+32）
总参数量	~18B
隐藏维度	4096
Attention 头	16（4 KV 头，GQA）
FFN 中间维	12288
上下文长度	262 144 tokens
Attention 类型	Hybrid（每 4 层 full）
GGUF Q4_K_M	9.2 GB

层级构成

Layers  0–31:  Jackrong/Qwopus3.5-9B-v3.5         (Opus 推理蒸馏)
Layers 32–63:  Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1  (GLM-5.1 推理蒸馏)

Embedding、LM Head、MTP、视觉编码器：来自 Qwopus3.5-9B-v3.5

源模型

全部功劳归 Jackrong。我只是把层堆起来——质量都是他做的。

Jackrong/Qwopus3.5-9B-v3.5

Qwen3.5-9B 推理增强精调，SFT 数据量约 v3 的 2 倍，侧重结构化推理、工具增强、多步 Agent。
v3.5 设计洞见：“高质量 SFT 数据再翻倍，可进一步提升大模型泛化。”
亮点：Agent 代码测试 43/44 通过（97.7%）、MMLU-Pro 90.36%。

Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

用 GLM-5.1 教师模型蒸馏的 Qwen3.5-9B，主打结构化推理、指令遵循、问题拆解。
训练数据：GLM-5.1-Reasoning-1M-Cleaned + Qwen3.5-reasoning-700x。

为什么能成

把两种不同蒸馏路线的推理模型叠在一起：

Qwopus v3.5：Agent 工具、代码生成、Opus 式高效推理
GLM-5.1 Distill：结构化分步、指令对齐、GLM 式推理骨架

深层网络 + 多元推理训练 → 更鲁棒。 benchmark 证明可行。

合并细节

方法：直通层堆叠（passthrough frankenmerge）
工具：自写脚本（mergekit 不支持 Qwen3.5 hybrid attention）
Embedding / LM Head / 视觉 / MTP：取自 Qwopus3.5-9B-v3.5
精度：BF16 → Q4_K_M GGUF
无额外训练

用法

llama.cpp（推荐）

llama-server \
    -m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

Transformers

本仓库仅含 GGUF。需要 BF16 safetensors 做二次微调请 X 上找我。

局限

实验性弗兰肯合并，层边界可能偶发连贯或格式问题。
代码围栏偶尔缺 ```，但推理内容通常正确。
未穷尽测试，周末项目，边角落雷未排。
幻觉风险——自回归 LLM 通病。

致谢

Jackrong——真·大佬。模型、数据、 pipeline 全是他的。
Qwen 团队提供优秀基座
Unsloth AI 提供高效微调基建
GLM-5.1 团队 & Kassadin88 提供教师模型与数据
开源社区

有问题？

纯图一乐，欢迎 X 上拍砖或晒作品！

@KyleHessling1

引用

@misc{jackrong_qwopus35_9b_v35,
  title  = {Qwopus3.5-9B-v3.5},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

@misc{jackrong_qwen35_9b_glm51_distill_v1,
  title  = {Qwen3.5-9B-GLM5.1-Distill-v1},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

KyleHessling1/Qwopus-GLM-18B-Merged-GGUF

KyleHessling1/Qwopus-GLM-18B-Merged-GGUF · Hugging Face

Qwopus-GLM-18B-Merged（修复版）

修复微调——真的管用

基准成绩

关键结论

修复微调细节

仍翻车的点

前端代码生成极限测试

架构

层级构成

源模型

Jackrong/Qwopus3.5-9B-v3.5

Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

为什么能成

合并细节

用法

llama.cpp（推荐）

Transformers

局限

相关研究

致谢

有问题？

引用

相似文章

Jackrong/Qwopus-GLM-18B-Merged-GGUF

@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就打败 35B MoE

hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

Qwen3.6-27B-GGUF 重磅发布！

提交意见反馈