Jackrong/Qwopus-GLM-18B-Merged-GGUF
摘要
Jackrong 发布了 Qwopus-GLM-18B-Merged-GGUF,这是一个结合两个 Qwen3.5-9B 微调模型的 64 层“弗兰肯合并”模型,参数规模约 18B。通过 1000 步 LoRA 微调修复了层边界问题。该模型在能力基准测试中达到 90.9%,而显存消耗不到 Qwen 3.6-35B MoE 的一半。
查看缓存全文
缓存时间: 2026/04/20 14:45
Jackrong/Qwopus-GLM-18B-Merged-GGUF · Hugging Face
来源:https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF
这是一个64层的弗兰肯合并,合并了Jackrong (https://huggingface.co/Jackrong) 两个出色的Qwen3.5-9B微调模型,将每个模型的32层堆叠起来,创建了一个约18B参数的模型,然后通过1000步LoRA微调进行“治愈”,以平滑层边界。
这是一个有趣的实验! 很多人一直在寻找介于Jackrong的27B和9B模型之间的东西——一个能在12-16 GB GPU上良好运行的模型。这个弗兰肯合并就是为了填补这个空缺,结果出人意料地好。
感谢这个模型的创建者 @KyleHessling1 (https://x.com/KyleHessling1) 🙌 这仍然是一个实验性模型,可能会有一些怪癖或问题。如果你遇到任何奇怪的现象,或者你用这个模型做出了很酷的东西,欢迎在X上联系。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#heal-fine-tune–it-works-%F0%9F%9B%A0%EF%B8%8F 治愈微调 — 效果显著 🛠️
原始的弗兰肯合并有一个已知问题:生成乱码代码。由于两个独立训练的模型在第32层堆叠,结构化输出(代码块、HTML、括号匹配)偶尔会出现格式错误或幻觉。
我们使用Jackrong自己的训练数据进行了1000步的QLoRA治愈微调,让梯度能够跨越层边界流动——结果非常显著:
- HTML生成现在干净且达到生产级别。 我们测试了一个复杂的单页天气仪表板(导航栏、深色模式开关、5天预报网格、响应式侧边栏、CSS变量、JavaScript)——该模型生成了超过14,500个有效HTML/CSS/JS字符,CSS大括号完美平衡,JS圆括号完美平衡,没有乱码文本,并且有完整的
</html\>闭合。 - 编程基准提升: 从11/15(原始)提升到12/15(治愈后),恢复了对
longest\_substring滑动窗口算法的测试(8/8用例通过) - 总体得分提升: 从39/44提升到40/44(90.9%),在不到一半的显存消耗下,仍然轻松击败了Qwen 3.6 MoE(38/44)
- 训练期间损失下降39%(从1.02下降到0.62),证实了层边界确实是一个可以通过训练解决的误差来源
仅提供治愈后的GGUF版本(Qwopus-GLM-18B-Healed-Q4_K_M.gguf)。如果你对用于研究目的的原始未治愈合并感兴趣,请联系我们。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#benchmark-results-%F0%9F%93%8A 基准测试结果 📊
我们运行了一套包含44项测试的能力套件,涵盖基础生成、推理、工具调用、Agent工作流、结构化输出、上下文处理、多语言、编程和性能。
治愈后的合并超越了全新的Qwen 3.6-35B-A3B MoE(Q4_K_M,22 GB),尽管其体量要小得多(Q4_K_M,9.2 GB):
| 类别 | Qwopus 9B(源模型) | Qwopus-GLM-18B(治愈后) | Qwen 3.6-35B MoE |
|---|---|---|---|
| 基础 | 6/6 | 6/6 | 5/6 |
| 推理 | 4/4 | 4/4 | 4/4 |
| 工具调用 | 6/6 | 6/6 | 6/6 |
| Agent能力 | 4/4 | 4/4 | 4/4 |
| 结构化输出 | 2/2 | 2/2 | 2/2 |
| 上下文 | 2/3 | 2/3 | 2/3 |
| 多语言 | 2/2 | 2/2 | 2/2 |
| 编程 | 13/15 | 12/15 | 12/15 |
| 性能 | 2/2 | 2/2 | 1/2 |
| 总计 | 41/44(93.2%) | 40/44(90.9%) | 38/44(86.4%) |
| 吞吐量 | 126.0 tok/s | 66.0 tok/s | 174.2 tok/s |
| GGUF大小 | 5.3 GB | 9.2 GB | 22 GB |
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#key-takeaways 主要收获
- 40/44测试通过(治愈后90.9%)——在不到一半的显存下击败了Qwen 3.6 MoE的38/44(86.4%)
- 治愈训练恢复了编程能力:11/15(原始)→ 12/15(治愈后),与Qwen 3.6 MoE持平
- 完美的工具调用(6/6)——单次调用、可选参数、工具选择、复杂参数、响应处理
- 完美的Agent推理(4/4)——计划生成、多步骤工具工作流、错误恢复、自我纠正
- 所有测试模型中中文输出密度最高:129-138个CJK字符
- 约66 tok/s,吞吐量方差低——推理稳定
- 在Q4_K_M下仅需12 GB显存——可在RTX 3060/4070等消费级GPU上运行
该模型未经过完整或全面的评估。这些基准测试结果仅供参考。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#heal-fine-tune-details 治愈微调详情
原始的弗兰肯合并在代码格式上存在问题(乱码代码块、缺少括号)。我们使用Jackrong的训练数据进行了1000步的QLoRA治愈微调,以平滑第32层的边界:
- 方法: QLoRA(4位NF4),LoRA秩64,针对所有注意力层+MLP投影层
- 数据: 混合了
Jackrong/Qwen3.5-reasoning-700x(70%)、Jackrong/Competitive-Programming-python-blend(15%)、Jackrong/MultiReason-ChatAlpaca(15%) - 训练: 1000步,批次大小8,学习率2e-5余弦调度,在RTX 5090上约14小时
- 损失: 从1.02下降到0.62(降低39%)
- 结果: 恢复了一项编程测试,HTML/CSS输出现在干净且达到生产级别
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#where-it-falls-short 不足之处
在治愈后的版本上,仍然有三项编程测试未通过:一个函数命名问题、一个缺少JS括号、以及一个不能生成pytest代码块的问题。这些是合并带来的残留格式问题。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#frontend-code-generation–stress-test-results-%F0%9F%8E%A8 前端代码生成 — 压力测试结果 🎨
我们对治愈后的模型进行了严格的前端压力测试:6个越来越复杂的HTML/CSS/JS生成任务,每个需要数千个结构有效的代码输出token。结果不言自明:
| 测试 | 我们要求的内容 | 通过检查项 | 输出大小 |
|---|---|---|---|
| 天气仪表板 | 响应式仪表板、CSS变量、深色模式开关、5天预报网格 | 9/9 | 14.5K字符 |
| 电子商务产品页 | 图片库、颜色样本、数量选择器、选项卡内容、粘性移动栏 | 12/12 | 16.7K字符 |
| 动画SaaS着陆页 | 移动渐变、打字动画、IntersectionObserver滚动显示、自动轮转推荐轮播、3个定价层级 | 13/13 | 24.1K字符 |
| 分析仪表板 | 带工具提示的SVG条形图、SVG环形图、可排序数据表、可折叠侧边栏、深色主题 | 13/13 | 22.3K字符 |
| 多步注册 | 3步表单向导、实时验证、密码强度计、州下拉菜单、动画过渡、成功弹窗 | 12/12 | 23.3K字符 |
| 贪吃蛇游戏 | Canvas游戏循环、方向键控制、碰撞检测、localStorage最高分、难度递增 | 11/12 | 11.2K字符 |
| 总共62/63项检查通过(98.4%) |
每一个输出都具有:
- 完美平衡的CSS大括号(6个文件中零不平衡)
- 完美平衡的JS圆括号(6个文件中零不平衡)
- 零乱码或幻觉文本
- 可工作的JavaScript——深色模式切换、IntersectionObserver动画、SVG图表渲染、表单验证、Canvas游戏循环
唯一的失误:贪吃蛇游戏在最后有一个小标签闭合错误(html\>而不是</html\>)。
对于一个仅通过1000步QLoRA治愈的、由两个9B模型组成的弗兰肯合并来说,这令人瞩目。该模型正在生成生产级别的前端代码——不仅仅是语法有效的HTML,而是复杂的交互式应用,使用了现代CSS(Grid、Flexbox、自定义属性、关键帧动画)和非平凡的JavaScript(IntersectionObserver、requestAnimationFrame游戏循环、实时表单验证、SVG图表生成)。
所有6个示例HTML文件都包含在本仓库的samples/目录中——下载并在浏览器中打开,亲眼看看吧。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#architecture-%F0%9F%A7%B1 架构 🧱
| 属性 | 值 |
|---|---|
| 总层数 | 64(32 + 32) |
| 总参数 | 约18B |
| 隐藏层大小 | 4096 |
| 注意力头 | 16(4个KV头,GQA) |
| 中间层大小 | 12288 |
| 上下文长度 | 262,144 tokens |
| 注意力类型 | 混合型(线性 + 全注意力,每4层一次) |
| GGUF Q4_K_M大小 | 9.2 GB |
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#layer-composition 层组成
0–31层: Jackrong/Qwopus3.5-9B-v3.5 (Opus推理蒸馏)
32–63层: Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1 (GLM-5.1推理蒸馏)
嵌入层、LM头、MTP、视觉编码器:来自Qwopus3.5-9B-v3.5
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#source-models-%F0%9F%A7%AC 源模型 🧬
所有源模型的功劳归于 Jackrong (https://huggingface.co/Jackrong),他创建了这两个出色的微调模型。我只是堆叠了层——质量来自他的工作。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#jackrongqwopus35-9b-v35 Jackrong/Qwopus3.5-9B-v3.5
一个基于Qwen3.5-9B的推理增强型微调模型,使用了大约v3两倍的SFT数据进行训练,专注于结构化推理、工具增强工作流和多步骤Agent任务。
v3.5设计的关键见解:“扩展高质量SFT数据可能进一步增强大语言模型的泛化能力。” 推理SFT帮助模型更好地利用已有知识,并通过结构化推理激活潜在知识,而不仅仅是记忆长链思维输出。
性能亮点(27B行参考):
- MMLU-Pro:90.36%准确率(比v3提升1.07%)
- Agent编码测试:43/44通过(97.7%)
资源:
- 模型卡 (https://huggingface.co/Jackrong/Qwopus3.5-9B-v3.5)
- 微调指南PDF (https://github.com/R6410418/Jackrong-llm-finetuning-guide/blob/main/guidePDF/Qwopus3-5-9b-Colab_complete_guide_to_llm_finetuning.pdf)
- GitHub (https://github.com/R6410418/Jackrong-llm-finetuning-guide)
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#jackrongqwen35-9b-glm51-distill-v1 Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1
一个基于Qwen3.5-9B的蒸馏变体,在来自GLM-5.1教师模型的高质量推理数据上训练(约是Qwen3.5-reasoning-700x规模的700倍)。专注于结构化推理能力、指令跟随一致性和问题分解。
该模型学习了一个结构化的推理框架:理解任务、分解问题、逐步推理、然后构建最终答案。
训练数据:
- 主要:
Jackrong/GLM-5.1-Reasoning-1M-Cleaned(从Kassadin88/GLM-5.1-1000000x清洗得到) - 辅助:
Jackrong/Qwen3.5-reasoning-700x
资源:
- 模型卡 (https://huggingface.co/Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1)
- 微调指南PDF (https://github.com/R6410418/Jackrong-llm-finetuning-guide/blob/main/guidePDF/Qwopus3-5-27b-Colab_complete_guide_to_llm_finetuning.pdf)
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#why-this-works-%F0%9F%A4%94 为什么有效 🤔
通过堆叠两个经过不同蒸馏的推理模型,这个合并结合了:
- Qwopus v3.5的优势:Agent工具使用、代码生成和token高效推理(Opus式训练)
- GLM-5.1蒸馏的优势:结构化问题分解、指令遵循和思维链组织(GLM式推理框架)
假设:具有多样化推理训练的深层网络能产生更鲁棒、更有能力的模型——基准测试结果表明,至少在测试的能力上,这是有效的。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#merge-details 合并详情
- 方法: 直通弗兰肯合并(层堆叠)
- 工具: 自定义脚本(mergekit不支持Qwen3.5的混合线性/全注意力架构)
- 嵌入层 / LM头 / 视觉编码器 / MTP: 来自Qwopus3.5-9B-v3.5
- 精度: BF16 → Q4_K_M GGUF
- 未进行额外训练
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#usage-%F0%9F%9A%80 使用方法 🚀
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#with-llamacpp-recommended 使用llama.cpp(推荐)
llama-server \
-m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
--chat-template-file your-qwen35-template.jinja \
--ctx-size 65536 \
--flash-attn on \
--n-gpu-layers 99
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#with-transformers 使用Transformers
完整的BF16 safetensors不包含在此GGUF仓库中。如果你需要它们进行进一步的微调或实验,请在X上联系。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#limitations-%E2%9A%A0%EF%B8%8F 限制 ⚠️
- 实验性弗兰肯合并——未进行额外训练。两个源模型之间的层边界可能导致偶尔的一致性或格式问题。
- 代码格式——模型有时会乱码化围栏代码块(返回代码时没有正确的Markdown围栏)。即使格式不对,推理通常也是正确的。
- 未经详尽测试——这只是一个有趣的周末项目。可能存在我们尚未发现的边缘情况。
- 幻觉风险——与所有自回归LLM一样,输出可能包含事实错误。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#supported-research 支持的研究
两个源模型均引用:Ren 等, 2026 —《Rethinking Generalization in Reasoning SFT》 (arXiv:2604.06628 (https://arxiv.org/abs/2604.06628))
关键发现:推理SFT在充分训练下能够泛化;高质量的长期CoT数据能够实现跨领域迁移;更强的模型学习的是推理结构,而不仅仅是更长的输出。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#acknowledgements-%F0%9F%99%8F 致谢 🙏
- Jackrong (https://huggingface.co/Jackrong) — 真正的MVP。两个源模型、训练流程、数据集和文档都是他的工作。这个合并之所以存在,是因为他的微调模型如此出色,以至于即使简单地堆叠也能产生一个令人惊讶的、有能力的东西。
- Qwen (https://huggingface.co/Qwen) 提供了优秀的Qwen3.5-9B基座模型
- Unsloth AI (https://unsloth.ai/) 提供了高效的微调基础设施
- GLM-5.1团队 提供了用于蒸馏的教师模型
- Kassadin88 (https://huggingface.co/Kassadin88) 提供了原始GLM-5.1-1000000x数据集
- 更广泛的开源社区
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#questions-%F0%9F%92%AC 问题?💬
这只是一个有趣的尝试——如果有问题、发现bug或用它做出了很酷的东西,请在X上联系!
@KyleHessling1 (https://x.com/KyleHessling1)
⚠️ 这是一个实验性测试模型,作为有趣的社区探索项目的一部分创建。它是一个弗兰肯合并,没有经过额外的后训练或全面的安全评估。因此,该模型可能会表现出不稳定的行为、格式错误、不一致的推理或其他意外的伪像。它仅用于研究和实验。
https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#citations 引用
@misc{jackrong_qwopus35_9b_v35,
title = {Qwopus3.5-9B-v3.5},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face}
}
@misc{jackrong_qwen35_9b_glm51_distill_v1,
title = {Qwen3.5-9B-GLM5.1-Distill-v1},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face}
}
相似文章
KyleHessling1/Qwopus-GLM-18B-Merged-GGUF
实验性 18B 参数模型:将两个 Qwen-3.5-9B 微调模型堆叠后,用 1000 步 QLoRA“缝合”层边界;生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE,却只占 9.2 GB 显存。
Jackrong/Qwopus3.6-35B-A3B-v1-GGUF
Jackrong 发布 Qwopus3.6-35B-A3B-v1,基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本,针对逻辑推理和智能体编程优化,拥有 350 亿总参数和 30 亿激活参数。
Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF
GGUF量化版本的Qwopus3.6-27B-Coder-MTP模型已发布在Hugging Face上,针对本地推理进行了优化,兼容Transformers、vLLM、SGLang和Unsloth Studio。
Jackrong/Qwopus3.6-27B-v2-GGUF
Qwopus3.6-27B-v2是Qwen3.6-27B的推理增强微调版本,使用Trace Inversion数据集和课程学习,以GGUF格式发布以实现高效推理。
Jackrong/Qwopus3.6-27B-v2-MTP-GGUF
Jackrong/Qwopus3.6-27B-v2-MTP-GGUF 是 27B 参数语言模型的 GGUF 量化版本,托管在 Hugging Face 上,并附有使用各种库和工具的说明。