Jackrong/Qwopus-GLM-18B-Merged-GGUF

Hugging Face Models Trending 2026/04/18 02:48 模型

model-merge frankenmerge lora-tuning gguf qwen open-source fine-tuning

摘要

Jackrong 发布了 Qwopus-GLM-18B-Merged-GGUF，这是一个结合两个 Qwen3.5-9B 微调模型的 64 层“弗兰肯合并”模型，参数规模约 18B。通过 1000 步 LoRA 微调修复了层边界问题。该模型在能力基准测试中达到 90.9%，而显存消耗不到 Qwen 3.6-35B MoE 的一半。

任务：文本生成标签：gguf, merge, frankenmerge, qwen3.5, 推理, 文本生成, 对话, unsloth, 智能体, 工具使用, 思维链, qlora, 多语言, 代码生成, en, zh, ko, ja, fr, de, es, arxiv:2604.06628, base_model:Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1, base_model:merge:Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1, base_model:Jackrong/Qwopus3.5-9B-v3.5, base_model:merge:Jackrong/Qwopus3.5-9B-v3.5, license:apache-2.0, endpoints_compatible, region:us

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:45

Jackrong/Qwopus-GLM-18B-Merged-GGUF · Hugging Face

来源：https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF

这是一个64层的弗兰肯合并，合并了Jackrong (https://huggingface.co/Jackrong) 两个出色的Qwen3.5-9B微调模型，将每个模型的32层堆叠起来，创建了一个约18B参数的模型，然后通过1000步LoRA微调进行“治愈”，以平滑层边界。

这是一个有趣的实验！ 很多人一直在寻找介于Jackrong的27B和9B模型之间的东西——一个能在12-16 GB GPU上良好运行的模型。这个弗兰肯合并就是为了填补这个空缺，结果出人意料地好。

感谢这个模型的创建者 @KyleHessling1 (https://x.com/KyleHessling1) 🙌 这仍然是一个实验性模型，可能会有一些怪癖或问题。如果你遇到任何奇怪的现象，或者你用这个模型做出了很酷的东西，欢迎在X上联系。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#heal-fine-tune–it-works-%F0%9F%9B%A0%EF%B8%8F 治愈微调 — 效果显著 🛠️

原始的弗兰肯合并有一个已知问题：生成乱码代码。由于两个独立训练的模型在第32层堆叠，结构化输出（代码块、HTML、括号匹配）偶尔会出现格式错误或幻觉。

我们使用Jackrong自己的训练数据进行了1000步的QLoRA治愈微调，让梯度能够跨越层边界流动——结果非常显著：

HTML生成现在干净且达到生产级别。 我们测试了一个复杂的单页天气仪表板（导航栏、深色模式开关、5天预报网格、响应式侧边栏、CSS变量、JavaScript）——该模型生成了超过14,500个有效HTML/CSS/JS字符，CSS大括号完美平衡，JS圆括号完美平衡，没有乱码文本，并且有完整的</html\>闭合。
编程基准提升： 从11/15（原始）提升到12/15（治愈后），恢复了对longest\_substring滑动窗口算法的测试（8/8用例通过）
总体得分提升： 从39/44提升到40/44（90.9%），在不到一半的显存消耗下，仍然轻松击败了Qwen 3.6 MoE（38/44）
训练期间损失下降39%（从1.02下降到0.62），证实了层边界确实是一个可以通过训练解决的误差来源

仅提供治愈后的GGUF版本（Qwopus-GLM-18B-Healed-Q4_K_M.gguf）。如果你对用于研究目的的原始未治愈合并感兴趣，请联系我们。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#benchmark-results-%F0%9F%93%8A 基准测试结果 📊

我们运行了一套包含44项测试的能力套件，涵盖基础生成、推理、工具调用、Agent工作流、结构化输出、上下文处理、多语言、编程和性能。

治愈后的合并超越了全新的Qwen 3.6-35B-A3B MoE（Q4_K_M，22 GB），尽管其体量要小得多（Q4_K_M，9.2 GB）：

类别	Qwopus 9B（源模型）	Qwopus-GLM-18B（治愈后）	Qwen 3.6-35B MoE
基础	6/6	6/6	5/6
推理	4/4	4/4	4/4
工具调用	6/6	6/6	6/6
Agent能力	4/4	4/4	4/4
结构化输出	2/2	2/2	2/2
上下文	2/3	2/3	2/3
多语言	2/2	2/2	2/2
编程	13/15	12/15	12/15
性能	2/2	2/2	1/2
总计	41/44（93.2%）	40/44（90.9%）	38/44（86.4%）
吞吐量	126.0 tok/s	66.0 tok/s	174.2 tok/s
GGUF大小	5.3 GB	9.2 GB	22 GB

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#key-takeaways 主要收获

40/44测试通过（治愈后90.9%）——在不到一半的显存下击败了Qwen 3.6 MoE的38/44（86.4%）
治愈训练恢复了编程能力：11/15（原始）→ 12/15（治愈后），与Qwen 3.6 MoE持平
完美的工具调用（6/6）——单次调用、可选参数、工具选择、复杂参数、响应处理
完美的Agent推理（4/4）——计划生成、多步骤工具工作流、错误恢复、自我纠正
所有测试模型中中文输出密度最高：129-138个CJK字符
约66 tok/s，吞吐量方差低——推理稳定
在Q4_K_M下仅需12 GB显存——可在RTX 3060/4070等消费级GPU上运行

该模型未经过完整或全面的评估。这些基准测试结果仅供参考。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#heal-fine-tune-details 治愈微调详情

原始的弗兰肯合并在代码格式上存在问题（乱码代码块、缺少括号）。我们使用Jackrong的训练数据进行了1000步的QLoRA治愈微调，以平滑第32层的边界：

方法： QLoRA（4位NF4），LoRA秩64，针对所有注意力层+MLP投影层
数据： 混合了Jackrong/Qwen3.5-reasoning-700x（70%）、Jackrong/Competitive-Programming-python-blend（15%）、Jackrong/MultiReason-ChatAlpaca（15%）
训练： 1000步，批次大小8，学习率2e-5余弦调度，在RTX 5090上约14小时
损失： 从1.02下降到0.62（降低39%）
结果： 恢复了一项编程测试，HTML/CSS输出现在干净且达到生产级别

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#where-it-falls-short 不足之处

在治愈后的版本上，仍然有三项编程测试未通过：一个函数命名问题、一个缺少JS括号、以及一个不能生成pytest代码块的问题。这些是合并带来的残留格式问题。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#frontend-code-generation–stress-test-results-%F0%9F%8E%A8 前端代码生成 — 压力测试结果 🎨

我们对治愈后的模型进行了严格的前端压力测试：6个越来越复杂的HTML/CSS/JS生成任务，每个需要数千个结构有效的代码输出token。结果不言自明：

测试	我们要求的内容	通过检查项	输出大小
天气仪表板	响应式仪表板、CSS变量、深色模式开关、5天预报网格	9/9	14.5K字符
电子商务产品页	图片库、颜色样本、数量选择器、选项卡内容、粘性移动栏	12/12	16.7K字符
动画SaaS着陆页	移动渐变、打字动画、IntersectionObserver滚动显示、自动轮转推荐轮播、3个定价层级	13/13	24.1K字符
分析仪表板	带工具提示的SVG条形图、SVG环形图、可排序数据表、可折叠侧边栏、深色主题	13/13	22.3K字符
多步注册	3步表单向导、实时验证、密码强度计、州下拉菜单、动画过渡、成功弹窗	12/12	23.3K字符
贪吃蛇游戏	Canvas游戏循环、方向键控制、碰撞检测、localStorage最高分、难度递增	11/12	11.2K字符
总共62/63项检查通过（98.4%）

每一个输出都具有：

完美平衡的CSS大括号（6个文件中零不平衡）
完美平衡的JS圆括号（6个文件中零不平衡）
零乱码或幻觉文本
可工作的JavaScript——深色模式切换、IntersectionObserver动画、SVG图表渲染、表单验证、Canvas游戏循环

唯一的失误：贪吃蛇游戏在最后有一个小标签闭合错误（html\>而不是</html\>）。

对于一个仅通过1000步QLoRA治愈的、由两个9B模型组成的弗兰肯合并来说，这令人瞩目。该模型正在生成生产级别的前端代码——不仅仅是语法有效的HTML，而是复杂的交互式应用，使用了现代CSS（Grid、Flexbox、自定义属性、关键帧动画）和非平凡的JavaScript（IntersectionObserver、requestAnimationFrame游戏循环、实时表单验证、SVG图表生成）。

所有6个示例HTML文件都包含在本仓库的samples/目录中——下载并在浏览器中打开，亲眼看看吧。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#architecture-%F0%9F%A7%B1 架构 🧱

属性	值
总层数	64（32 + 32）
总参数	约18B
隐藏层大小	4096
注意力头	16（4个KV头，GQA）
中间层大小	12288
上下文长度	262,144 tokens
注意力类型	混合型（线性 + 全注意力，每4层一次）
GGUF Q4_K_M大小	9.2 GB

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#layer-composition 层组成

0–31层： Jackrong/Qwopus3.5-9B-v3.5         （Opus推理蒸馏）
32–63层： Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1  （GLM-5.1推理蒸馏）

嵌入层、LM头、MTP、视觉编码器：来自Qwopus3.5-9B-v3.5

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#source-models-%F0%9F%A7%AC 源模型 🧬

所有源模型的功劳归于 Jackrong (https://huggingface.co/Jackrong)，他创建了这两个出色的微调模型。我只是堆叠了层——质量来自他的工作。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#jackrongqwopus35-9b-v35 Jackrong/Qwopus3.5-9B-v3.5

一个基于Qwen3.5-9B的推理增强型微调模型，使用了大约v3两倍的SFT数据进行训练，专注于结构化推理、工具增强工作流和多步骤Agent任务。

v3.5设计的关键见解：“扩展高质量SFT数据可能进一步增强大语言模型的泛化能力。” 推理SFT帮助模型更好地利用已有知识，并通过结构化推理激活潜在知识，而不仅仅是记忆长链思维输出。

性能亮点（27B行参考）：

MMLU-Pro：90.36%准确率（比v3提升1.07%）
Agent编码测试：43/44通过（97.7%）

资源：

模型卡 (https://huggingface.co/Jackrong/Qwopus3.5-9B-v3.5)
微调指南PDF (https://github.com/R6410418/Jackrong-llm-finetuning-guide/blob/main/guidePDF/Qwopus3-5-9b-Colab_complete_guide_to_llm_finetuning.pdf)
GitHub (https://github.com/R6410418/Jackrong-llm-finetuning-guide)

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#jackrongqwen35-9b-glm51-distill-v1 Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

一个基于Qwen3.5-9B的蒸馏变体，在来自GLM-5.1教师模型的高质量推理数据上训练（约是Qwen3.5-reasoning-700x规模的700倍）。专注于结构化推理能力、指令跟随一致性和问题分解。

该模型学习了一个结构化的推理框架：理解任务、分解问题、逐步推理、然后构建最终答案。

训练数据：

主要：Jackrong/GLM-5.1-Reasoning-1M-Cleaned（从Kassadin88/GLM-5.1-1000000x清洗得到）
辅助：Jackrong/Qwen3.5-reasoning-700x

资源：

模型卡 (https://huggingface.co/Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1)
微调指南PDF (https://github.com/R6410418/Jackrong-llm-finetuning-guide/blob/main/guidePDF/Qwopus3-5-27b-Colab_complete_guide_to_llm_finetuning.pdf)

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#why-this-works-%F0%9F%A4%94 为什么有效 🤔

通过堆叠两个经过不同蒸馏的推理模型，这个合并结合了：

Qwopus v3.5的优势：Agent工具使用、代码生成和token高效推理（Opus式训练）
GLM-5.1蒸馏的优势：结构化问题分解、指令遵循和思维链组织（GLM式推理框架）

假设：具有多样化推理训练的深层网络能产生更鲁棒、更有能力的模型——基准测试结果表明，至少在测试的能力上，这是有效的。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#merge-details 合并详情

方法： 直通弗兰肯合并（层堆叠）
工具： 自定义脚本（mergekit不支持Qwen3.5的混合线性/全注意力架构）
嵌入层 / LM头 / 视觉编码器 / MTP： 来自Qwopus3.5-9B-v3.5
精度： BF16 → Q4_K_M GGUF
未进行额外训练

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#usage-%F0%9F%9A%80 使用方法 🚀

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#with-llamacpp-recommended 使用llama.cpp（推荐）

llama-server \
    -m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#with-transformers 使用Transformers

完整的BF16 safetensors不包含在此GGUF仓库中。如果你需要它们进行进一步的微调或实验，请在X上联系。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#limitations-%E2%9A%A0%EF%B8%8F 限制 ⚠️

实验性弗兰肯合并——未进行额外训练。两个源模型之间的层边界可能导致偶尔的一致性或格式问题。
代码格式——模型有时会乱码化围栏代码块（返回代码时没有正确的Markdown围栏）。即使格式不对，推理通常也是正确的。
未经详尽测试——这只是一个有趣的周末项目。可能存在我们尚未发现的边缘情况。
幻觉风险——与所有自回归LLM一样，输出可能包含事实错误。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#supported-research 支持的研究

两个源模型均引用：Ren 等, 2026 —《Rethinking Generalization in Reasoning SFT》 (arXiv:2604.06628 (https://arxiv.org/abs/2604.06628))

关键发现：推理SFT在充分训练下能够泛化；高质量的长期CoT数据能够实现跨领域迁移；更强的模型学习的是推理结构，而不仅仅是更长的输出。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#acknowledgements-%F0%9F%99%8F 致谢 🙏

Jackrong (https://huggingface.co/Jackrong) — 真正的MVP。两个源模型、训练流程、数据集和文档都是他的工作。这个合并之所以存在，是因为他的微调模型如此出色，以至于即使简单地堆叠也能产生一个令人惊讶的、有能力的东西。
Qwen (https://huggingface.co/Qwen) 提供了优秀的Qwen3.5-9B基座模型
Unsloth AI (https://unsloth.ai/) 提供了高效的微调基础设施
GLM-5.1团队 提供了用于蒸馏的教师模型
Kassadin88 (https://huggingface.co/Kassadin88) 提供了原始GLM-5.1-1000000x数据集
更广泛的开源社区

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#questions-%F0%9F%92%AC 问题？💬

这只是一个有趣的尝试——如果有问题、发现bug或用它做出了很酷的东西，请在X上联系！

@KyleHessling1 (https://x.com/KyleHessling1)

⚠️ 这是一个实验性测试模型，作为有趣的社区探索项目的一部分创建。它是一个弗兰肯合并，没有经过额外的后训练或全面的安全评估。因此，该模型可能会表现出不稳定的行为、格式错误、不一致的推理或其他意外的伪像。它仅用于研究和实验。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#citations 引用

@misc{jackrong_qwopus35_9b_v35,
  title  = {Qwopus3.5-9B-v3.5},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

@misc{jackrong_qwen35_9b_glm51_distill_v1,
  title  = {Qwen3.5-9B-GLM5.1-Distill-v1},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}