KyleHessling1/Qwopus-GLM-18B-Merged-GGUF

Hugging Face Models Trending 模型

摘要

实验性 18B 参数模型:将两个 Qwen-3.5-9B 微调模型堆叠后,用 1000 步 QLoRA“缝合”层边界;生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE,却只占 9.2 GB 显存。

任务:文本生成 标签:gguf, merge, frankenmerge, qwen3.5, reasoning, text-generation, conversational, unsloth, agent, tool-use, chain-of-thought, en, zh, ko, ja, fr, de, es, arxiv:2604.06628, base_model:Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1, base_model:merge:Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1, base_model:Jackrong/Qwopus3.5-9B-v3.5, base_model:merge:Jackrong/Qwopus3.5-9B-v3.5, license:apache-2.0, endpoints_compatible, region:us
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 13:37

KyleHessling1/Qwopus-GLM-18B-Merged-GGUF · Hugging Face

来源: https://huggingface.co/KyleHessling1/Qwopus-GLM-18B-Merged-GGUF

Qwopus-GLM-18B-Merged(修复版)

64 层“弗兰肯合并”:把 Jackrong 的两版 Qwen3.5-9B 精调模型各 32 层直接堆叠,得到约 18B 参数,再用 1000 步 QLoRA 轻调 弥合层边界。
纯属好玩! 很多人嫌 27B 太大、9B 又不够,于是有了这张 12–16 GB 显存能跑的“中间卡”。结果出奇地好。

修复微调——真的管用

原始合并版有个通病:代码乱码。两层模型在 32 层处硬拼接,导致代码块、HTML、括号匹配经常崩。
我们用 Jackrong 自己的训练数据跑了 1000 步 QLoRA 修复微调,让梯度能跨边界回流,效果显著:

  • HTML 生成可直接上线:单页天气仪表盘(导航栏、暗夜模式、5 日预报网格、响应式侧边栏、CSS 变量、JS)一次输出 14 500+ 字符,CSS 大括号、JS 圆括号全部配对,零乱码,完整 </html> 闭合
  • 编程基准:11/15(raw)→ 12/15(修复),找回 longest_substring 滑窗算法 8/8 用例。
  • 总分:39/44 → 40/44(90.9%),仍压 Qwen 3.6 MoE(38/44)一头,显存却不到一半。
  • loss 下降 39%(1.02→0.62),证实层边界确实是误差源。

本仓库仅提供修复后的 GGUF(Qwopus-GLM-18B-Healed-Q4_K_M.gguf)。如需原始未修复版做研究,请私信。

实验模型,可能还有怪癖。玩出花或者踩到坑,欢迎 X 上戳我:@KyleHessling1

基准成绩

44 项能力测试覆盖生成、推理、工具调用、Agent、结构化输出、长文本、多语言、编程、性能。

修复合并版 力压全新的 Qwen 3.6-35B-A3B MoE(Q4_K_M,22 GB),体积却只有 9.2 GB:

类别Qwopus 9B(源)Qwopus-GLM-18B(修复)Qwen 3.6-35B MoE
基础6/66/65/6
推理4/44/44/4
工具调用6/66/66/6
Agent4/44/44/4
结构化输出2/22/22/2
长文本2/32/32/3
多语言2/22/22/2
编程13/1512/1512/15
性能2/22/21/2
总分41/44(93.2%)40/44(90.9%)38/44(86.4%)
吞吐126.0 tok/s66.0 tok/s174.2 tok/s
GGUF 大小5.3 GB9.2 GB22 GB

关键结论

  • 40/44 通过(90.9%),显存减半仍超 Qwen 3.6 MoE。
  • 修复训练把编程能力捞回:11→12/15,与 Qwen 3.6 MoE 持平。
  • 工具调用 6/6 满分——单次、可选参数、复杂传参、返回处理全过。
  • Agent 推理 4/4 满分——规划、多步工具、错误恢复、自我修正。
  • 中文输出密度最高:129–138 CJK 字符。
  • ≈66 tok/s 且方差小,推理稳。
  • Q4_K_M 下 12 GB 显存可跑,RTX 3060/4070 亲民。

修复微调细节

  • 方法:QLoRA(4-bit NF4),LoRA rank 64,目标所有 Attention + MLP 投影。
  • 数据Jackrong/Qwen3.5-reasoning-700x 70% + 编程混合 15% + 多轮对话 15%。
  • 训练:1000 步,batch 8,lr 2e-5 cosine,RTX 5090 约 14 小时。
  • loss:1.02→0.62,降 39%。
  • 结果:编程题 +1,前端代码输出直接可用。

仍翻车的点

3 道编程题没过:函数命名错位 1 处、JS 缺右括号 1 处、pytest 没给代码块。合并痕迹仍在。

前端代码生成极限测试

6 道递进式前端任务,每题几千 token 结构化输出,结果:

测试需求通过输出规模
天气仪表盘响应式、CSS 变量、暗夜模式、5 日预报网格9/914.5K
电商详情页图片画廊、色板、数量选择、标签页、手机 sticky 栏12/1216.7K
SaaS 落地页渐变动效、打字机动画、滚动视差、轮播、三栏定价13/1324.1K
分析仪表盘SVG 柱状图/环形图、可排序表格、折叠侧边栏、暗夜主题13/1322.3K
多步注册三步表单、实时校验、密码强度、动画过渡、成功弹窗12/1223.3K
贪吃蛇Canvas 主循环、方向键、碰撞检测、localStorage 最高分11/1211.2K
总计62/63(98.4%)

全部文件:

  • CSS 大括号 100% 平衡
  • JS 圆括号 100% 平衡
  • 零乱码、零幻觉
  • 功能可跑——暗夜切换、IntersectionObserver、SVG 图表、表单验证、游戏循环

唯一小瑕疵:贪吃蛇结尾把 </html> 写成 <html>
仓库 samples/ 目录已放 6 个 HTML,下载直接浏览器打开验货。

架构

属性
总层数64(32+32)
总参数量~18B
隐藏维度4096
Attention 头16(4 KV 头,GQA)
FFN 中间维12288
上下文长度262 144 tokens
Attention 类型Hybrid(每 4 层 full)
GGUF Q4_K_M9.2 GB

层级构成

Layers  0–31:  Jackrong/Qwopus3.5-9B-v3.5         (Opus 推理蒸馏)
Layers 32–63:  Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1  (GLM-5.1 推理蒸馏)

Embedding、LM Head、MTP、视觉编码器:来自 Qwopus3.5-9B-v3.5

源模型

全部功劳归 Jackrong。我只是把层堆起来——质量都是他做的。

Jackrong/Qwopus3.5-9B-v3.5

Qwen3.5-9B 推理增强精调,SFT 数据量约 v3 的 2 倍,侧重结构化推理、工具增强、多步 Agent。
v3.5 设计洞见:“高质量 SFT 数据再翻倍,可进一步提升大模型泛化。”
亮点:Agent 代码测试 43/44 通过(97.7%)、MMLU-Pro 90.36%。

Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

用 GLM-5.1 教师模型蒸馏的 Qwen3.5-9B,主打结构化推理、指令遵循、问题拆解。
训练数据:GLM-5.1-Reasoning-1M-Cleaned + Qwen3.5-reasoning-700x。

为什么能成

把两种不同蒸馏路线的推理模型叠在一起:

  1. Qwopus v3.5:Agent 工具、代码生成、Opus 式高效推理
  2. GLM-5.1 Distill:结构化分步、指令对齐、GLM 式推理骨架

深层网络 + 多元推理训练 → 更鲁棒。 benchmark 证明可行。

合并细节

  • 方法:直通层堆叠(passthrough frankenmerge)
  • 工具:自写脚本(mergekit 不支持 Qwen3.5 hybrid attention)
  • Embedding / LM Head / 视觉 / MTP:取自 Qwopus3.5-9B-v3.5
  • 精度:BF16 → Q4_K_M GGUF
  • 无额外训练

用法

llama.cpp(推荐)

llama-server \
    -m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

Transformers

本仓库仅含 GGUF。需要 BF16 safetensors 做二次微调请 X 上找我。

局限

  • 实验性弗兰肯合并,层边界可能偶发连贯或格式问题。
  • 代码围栏偶尔缺 ```,但推理内容通常正确。
  • 未穷尽测试,周末项目,边角落雷未排。
  • 幻觉风险——自回归 LLM 通病。

相关研究

两源模型均引用:Ren et al., 2026 —《Rethinking Generalization in Reasoning SFT》
核心结论:足够量的高质量长思维链数据能让模型学到推理结构,而非单纯拉长输出。

致谢

  • Jackrong——真·大佬。模型、数据、 pipeline 全是他的。
  • Qwen 团队提供优秀基座
  • Unsloth AI 提供高效微调基建
  • GLM-5.1 团队 & Kassadin88 提供教师模型与数据
  • 开源社区

有问题?

纯图一乐,欢迎 X 上拍砖或晒作品!

@KyleHessling1

引用

@misc{jackrong_qwopus35_9b_v35,
  title  = {Qwopus3.5-9B-v3.5},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

@misc{jackrong_qwen35_9b_glm51_distill_v1,
  title  = {Qwen3.5-9B-GLM5.1-Distill-v1},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

相似文章

Jackrong/Qwopus-GLM-18B-Merged-GGUF

Hugging Face Models Trending

Jackrong 发布了 Qwopus-GLM-18B-Merged-GGUF,这是一个结合两个 Qwen3.5-9B 微调模型的 64 层“弗兰肯合并”模型,参数规模约 18B。通过 1000 步 LoRA 微调修复了层边界问题。该模型在能力基准测试中达到 90.9%,而显存消耗不到 Qwen 3.6-35B MoE 的一半。

Qwen3.6-27B-GGUF 重磅发布!

Reddit r/LocalLLaMA

社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。