Jackrong/Qwopus-GLM-18B-Merged-GGUF

Hugging Face Models Trending 模型

摘要

Jackrong 发布了 Qwopus-GLM-18B-Merged-GGUF,这是一个结合两个 Qwen3.5-9B 微调模型的 64 层“弗兰肯合并”模型,参数规模约 18B。通过 1000 步 LoRA 微调修复了层边界问题。该模型在能力基准测试中达到 90.9%,而显存消耗不到 Qwen 3.6-35B MoE 的一半。

任务:文本生成 标签:gguf, merge, frankenmerge, qwen3.5, 推理, 文本生成, 对话, unsloth, 智能体, 工具使用, 思维链, qlora, 多语言, 代码生成, en, zh, ko, ja, fr, de, es, arxiv:2604.06628, base_model:Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1, base_model:merge:Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1, base_model:Jackrong/Qwopus3.5-9B-v3.5, base_model:merge:Jackrong/Qwopus3.5-9B-v3.5, license:apache-2.0, endpoints_compatible, region:us
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:45

Jackrong/Qwopus-GLM-18B-Merged-GGUF · Hugging Face

来源:https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF

这是一个64层的弗兰肯合并,合并了Jackrong (https://huggingface.co/Jackrong) 两个出色的Qwen3.5-9B微调模型,将每个模型的32层堆叠起来,创建了一个约18B参数的模型,然后通过1000步LoRA微调进行“治愈”,以平滑层边界。

这是一个有趣的实验! 很多人一直在寻找介于Jackrong的27B和9B模型之间的东西——一个能在12-16 GB GPU上良好运行的模型。这个弗兰肯合并就是为了填补这个空缺,结果出人意料地好。

感谢这个模型的创建者 @KyleHessling1 (https://x.com/KyleHessling1) 🙌 这仍然是一个实验性模型,可能会有一些怪癖或问题。如果你遇到任何奇怪的现象,或者你用这个模型做出了很酷的东西,欢迎在X上联系。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#heal-fine-tune–it-works-%F0%9F%9B%A0%EF%B8%8F 治愈微调 — 效果显著 🛠️

原始的弗兰肯合并有一个已知问题:生成乱码代码。由于两个独立训练的模型在第32层堆叠,结构化输出(代码块、HTML、括号匹配)偶尔会出现格式错误或幻觉。

我们使用Jackrong自己的训练数据进行了1000步的QLoRA治愈微调,让梯度能够跨越层边界流动——结果非常显著:

  • HTML生成现在干净且达到生产级别。 我们测试了一个复杂的单页天气仪表板(导航栏、深色模式开关、5天预报网格、响应式侧边栏、CSS变量、JavaScript)——该模型生成了超过14,500个有效HTML/CSS/JS字符,CSS大括号完美平衡,JS圆括号完美平衡,没有乱码文本,并且有完整的</html\>闭合。
  • 编程基准提升: 从11/15(原始)提升到12/15(治愈后),恢复了对longest\_substring滑动窗口算法的测试(8/8用例通过)
  • 总体得分提升: 从39/44提升到40/44(90.9%),在不到一半的显存消耗下,仍然轻松击败了Qwen 3.6 MoE(38/44)
  • 训练期间损失下降39%(从1.02下降到0.62),证实了层边界确实是一个可以通过训练解决的误差来源

仅提供治愈后的GGUF版本(Qwopus-GLM-18B-Healed-Q4_K_M.gguf)。如果你对用于研究目的的原始未治愈合并感兴趣,请联系我们。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#benchmark-results-%F0%9F%93%8A 基准测试结果 📊

我们运行了一套包含44项测试的能力套件,涵盖基础生成、推理、工具调用、Agent工作流、结构化输出、上下文处理、多语言、编程和性能。

治愈后的合并超越了全新的Qwen 3.6-35B-A3B MoE(Q4_K_M,22 GB),尽管其体量要小得多(Q4_K_M,9.2 GB):

类别Qwopus 9B(源模型)Qwopus-GLM-18B(治愈后)Qwen 3.6-35B MoE
基础6/66/65/6
推理4/44/44/4
工具调用6/66/66/6
Agent能力4/44/44/4
结构化输出2/22/22/2
上下文2/32/32/3
多语言2/22/22/2
编程13/1512/1512/15
性能2/22/21/2
总计41/44(93.2%)40/44(90.9%)38/44(86.4%)
吞吐量126.0 tok/s66.0 tok/s174.2 tok/s
GGUF大小5.3 GB9.2 GB22 GB

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#key-takeaways 主要收获

  • 40/44测试通过(治愈后90.9%)——在不到一半的显存下击败了Qwen 3.6 MoE的38/44(86.4%)
  • 治愈训练恢复了编程能力:11/15(原始)→ 12/15(治愈后),与Qwen 3.6 MoE持平
  • 完美的工具调用(6/6)——单次调用、可选参数、工具选择、复杂参数、响应处理
  • 完美的Agent推理(4/4)——计划生成、多步骤工具工作流、错误恢复、自我纠正
  • 所有测试模型中中文输出密度最高:129-138个CJK字符
  • 约66 tok/s,吞吐量方差低——推理稳定
  • 在Q4_K_M下仅需12 GB显存——可在RTX 3060/4070等消费级GPU上运行

该模型未经过完整或全面的评估。这些基准测试结果仅供参考。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#heal-fine-tune-details 治愈微调详情

原始的弗兰肯合并在代码格式上存在问题(乱码代码块、缺少括号)。我们使用Jackrong的训练数据进行了1000步的QLoRA治愈微调,以平滑第32层的边界:

  • 方法: QLoRA(4位NF4),LoRA秩64,针对所有注意力层+MLP投影层
  • 数据: 混合了Jackrong/Qwen3.5-reasoning-700x(70%)、Jackrong/Competitive-Programming-python-blend(15%)、Jackrong/MultiReason-ChatAlpaca(15%)
  • 训练: 1000步,批次大小8,学习率2e-5余弦调度,在RTX 5090上约14小时
  • 损失: 从1.02下降到0.62(降低39%)
  • 结果: 恢复了一项编程测试,HTML/CSS输出现在干净且达到生产级别

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#where-it-falls-short 不足之处

在治愈后的版本上,仍然有三项编程测试未通过:一个函数命名问题、一个缺少JS括号、以及一个不能生成pytest代码块的问题。这些是合并带来的残留格式问题。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#frontend-code-generation–stress-test-results-%F0%9F%8E%A8 前端代码生成 — 压力测试结果 🎨

我们对治愈后的模型进行了严格的前端压力测试:6个越来越复杂的HTML/CSS/JS生成任务,每个需要数千个结构有效的代码输出token。结果不言自明:

测试我们要求的内容通过检查项输出大小
天气仪表板响应式仪表板、CSS变量、深色模式开关、5天预报网格9/914.5K字符
电子商务产品页图片库、颜色样本、数量选择器、选项卡内容、粘性移动栏12/1216.7K字符
动画SaaS着陆页移动渐变、打字动画、IntersectionObserver滚动显示、自动轮转推荐轮播、3个定价层级13/1324.1K字符
分析仪表板带工具提示的SVG条形图、SVG环形图、可排序数据表、可折叠侧边栏、深色主题13/1322.3K字符
多步注册3步表单向导、实时验证、密码强度计、州下拉菜单、动画过渡、成功弹窗12/1223.3K字符
贪吃蛇游戏Canvas游戏循环、方向键控制、碰撞检测、localStorage最高分、难度递增11/1211.2K字符
总共62/63项检查通过(98.4%)

每一个输出都具有:

  • 完美平衡的CSS大括号(6个文件中零不平衡)
  • 完美平衡的JS圆括号(6个文件中零不平衡)
  • 零乱码或幻觉文本
  • 可工作的JavaScript——深色模式切换、IntersectionObserver动画、SVG图表渲染、表单验证、Canvas游戏循环

唯一的失误:贪吃蛇游戏在最后有一个小标签闭合错误(html\>而不是</html\>)。

对于一个仅通过1000步QLoRA治愈的、由两个9B模型组成的弗兰肯合并来说,这令人瞩目。该模型正在生成生产级别的前端代码——不仅仅是语法有效的HTML,而是复杂的交互式应用,使用了现代CSS(Grid、Flexbox、自定义属性、关键帧动画)和非平凡的JavaScript(IntersectionObserver、requestAnimationFrame游戏循环、实时表单验证、SVG图表生成)。

所有6个示例HTML文件都包含在本仓库的samples/目录中——下载并在浏览器中打开,亲眼看看吧。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#architecture-%F0%9F%A7%B1 架构 🧱

属性
总层数64(32 + 32)
总参数约18B
隐藏层大小4096
注意力头16(4个KV头,GQA)
中间层大小12288
上下文长度262,144 tokens
注意力类型混合型(线性 + 全注意力,每4层一次)
GGUF Q4_K_M大小9.2 GB

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#layer-composition 层组成

0–31层: Jackrong/Qwopus3.5-9B-v3.5         (Opus推理蒸馏)
32–63层: Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1  (GLM-5.1推理蒸馏)

嵌入层、LM头、MTP、视觉编码器:来自Qwopus3.5-9B-v3.5

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#source-models-%F0%9F%A7%AC 源模型 🧬

所有源模型的功劳归于 Jackrong (https://huggingface.co/Jackrong),他创建了这两个出色的微调模型。我只是堆叠了层——质量来自他的工作。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#jackrongqwopus35-9b-v35 Jackrong/Qwopus3.5-9B-v3.5

一个基于Qwen3.5-9B的推理增强型微调模型,使用了大约v3两倍的SFT数据进行训练,专注于结构化推理、工具增强工作流和多步骤Agent任务。

v3.5设计的关键见解:“扩展高质量SFT数据可能进一步增强大语言模型的泛化能力。” 推理SFT帮助模型更好地利用已有知识,并通过结构化推理激活潜在知识,而不仅仅是记忆长链思维输出。

性能亮点(27B行参考):

  • MMLU-Pro:90.36%准确率(比v3提升1.07%)
  • Agent编码测试:43/44通过(97.7%)

资源:

  • 模型卡 (https://huggingface.co/Jackrong/Qwopus3.5-9B-v3.5)
  • 微调指南PDF (https://github.com/R6410418/Jackrong-llm-finetuning-guide/blob/main/guidePDF/Qwopus3-5-9b-Colab_complete_guide_to_llm_finetuning.pdf)
  • GitHub (https://github.com/R6410418/Jackrong-llm-finetuning-guide)

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#jackrongqwen35-9b-glm51-distill-v1 Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

一个基于Qwen3.5-9B的蒸馏变体,在来自GLM-5.1教师模型的高质量推理数据上训练(约是Qwen3.5-reasoning-700x规模的700倍)。专注于结构化推理能力、指令跟随一致性和问题分解。

该模型学习了一个结构化的推理框架:理解任务、分解问题、逐步推理、然后构建最终答案。

训练数据:

  • 主要:Jackrong/GLM-5.1-Reasoning-1M-Cleaned(从Kassadin88/GLM-5.1-1000000x清洗得到)
  • 辅助:Jackrong/Qwen3.5-reasoning-700x

资源:

  • 模型卡 (https://huggingface.co/Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1)
  • 微调指南PDF (https://github.com/R6410418/Jackrong-llm-finetuning-guide/blob/main/guidePDF/Qwopus3-5-27b-Colab_complete_guide_to_llm_finetuning.pdf)

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#why-this-works-%F0%9F%A4%94 为什么有效 🤔

通过堆叠两个经过不同蒸馏的推理模型,这个合并结合了:

  1. Qwopus v3.5的优势:Agent工具使用、代码生成和token高效推理(Opus式训练)
  2. GLM-5.1蒸馏的优势:结构化问题分解、指令遵循和思维链组织(GLM式推理框架)

假设:具有多样化推理训练的深层网络能产生更鲁棒、更有能力的模型——基准测试结果表明,至少在测试的能力上,这是有效的。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#merge-details 合并详情

  • 方法: 直通弗兰肯合并(层堆叠)
  • 工具: 自定义脚本(mergekit不支持Qwen3.5的混合线性/全注意力架构)
  • 嵌入层 / LM头 / 视觉编码器 / MTP: 来自Qwopus3.5-9B-v3.5
  • 精度: BF16 → Q4_K_M GGUF
  • 未进行额外训练

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#usage-%F0%9F%9A%80 使用方法 🚀

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#with-llamacpp-recommended 使用llama.cpp(推荐)

llama-server \
    -m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#with-transformers 使用Transformers

完整的BF16 safetensors不包含在此GGUF仓库中。如果你需要它们进行进一步的微调或实验,请在X上联系。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#limitations-%E2%9A%A0%EF%B8%8F 限制 ⚠️

  • 实验性弗兰肯合并——未进行额外训练。两个源模型之间的层边界可能导致偶尔的一致性或格式问题。
  • 代码格式——模型有时会乱码化围栏代码块(返回代码时没有正确的Markdown围栏)。即使格式不对,推理通常也是正确的。
  • 未经详尽测试——这只是一个有趣的周末项目。可能存在我们尚未发现的边缘情况。
  • 幻觉风险——与所有自回归LLM一样,输出可能包含事实错误。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#supported-research 支持的研究

两个源模型均引用:Ren 等, 2026 —《Rethinking Generalization in Reasoning SFT》 (arXiv:2604.06628 (https://arxiv.org/abs/2604.06628))

关键发现:推理SFT在充分训练下能够泛化;高质量的长期CoT数据能够实现跨领域迁移;更强的模型学习的是推理结构,而不仅仅是更长的输出。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#acknowledgements-%F0%9F%99%8F 致谢 🙏

  • Jackrong (https://huggingface.co/Jackrong) — 真正的MVP。两个源模型、训练流程、数据集和文档都是他的工作。这个合并之所以存在,是因为他的微调模型如此出色,以至于即使简单地堆叠也能产生一个令人惊讶的、有能力的东西。
  • Qwen (https://huggingface.co/Qwen) 提供了优秀的Qwen3.5-9B基座模型
  • Unsloth AI (https://unsloth.ai/) 提供了高效的微调基础设施
  • GLM-5.1团队 提供了用于蒸馏的教师模型
  • Kassadin88 (https://huggingface.co/Kassadin88) 提供了原始GLM-5.1-1000000x数据集
  • 更广泛的开源社区

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#questions-%F0%9F%92%AC 问题?💬

这只是一个有趣的尝试——如果有问题、发现bug或用它做出了很酷的东西,请在X上联系!

@KyleHessling1 (https://x.com/KyleHessling1)

⚠️ 这是一个实验性测试模型,作为有趣的社区探索项目的一部分创建。它是一个弗兰肯合并,没有经过额外的后训练或全面的安全评估。因此,该模型可能会表现出不稳定的行为、格式错误、不一致的推理或其他意外的伪像。它仅用于研究和实验。

https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF#citations 引用

@misc{jackrong_qwopus35_9b_v35,
  title  = {Qwopus3.5-9B-v3.5},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

@misc{jackrong_qwen35_9b_glm51_distill_v1,
  title  = {Qwen3.5-9B-GLM5.1-Distill-v1},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

相似文章

KyleHessling1/Qwopus-GLM-18B-Merged-GGUF

Hugging Face Models Trending

实验性 18B 参数模型:将两个 Qwen-3.5-9B 微调模型堆叠后,用 1000 步 QLoRA“缝合”层边界;生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE,却只占 9.2 GB 显存。

Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

Hugging Face Models Trending

Jackrong 发布 Qwopus3.6-35B-A3B-v1,基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本,针对逻辑推理和智能体编程优化,拥有 350 亿总参数和 30 亿激活参数。

Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF

Hugging Face Models Trending

GGUF量化版本的Qwopus3.6-27B-Coder-MTP模型已发布在Hugging Face上,针对本地推理进行了优化,兼容Transformers、vLLM、SGLang和Unsloth Studio。

Jackrong/Qwopus3.6-27B-v2-GGUF

Hugging Face Models Trending

Qwopus3.6-27B-v2是Qwen3.6-27B的推理增强微调版本,使用Trace Inversion数据集和课程学习,以GGUF格式发布以实现高效推理。

Jackrong/Qwopus3.6-27B-v2-MTP-GGUF

Hugging Face Models Trending

Jackrong/Qwopus3.6-27B-v2-MTP-GGUF 是 27B 参数语言模型的 GGUF 量化版本,托管在 Hugging Face 上,并附有使用各种库和工具的说明。