Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

Hugging Face Models Trending 模型

摘要

Jackrong 发布 Qwopus3.6-35B-A3B-v1,基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本,针对逻辑推理和智能体编程优化,拥有 350 亿总参数和 30 亿激活参数。

任务:image-text-to-text 标签:transformers, gguf, text-generation-inference, unsloth, qwen3_6, moe, reasoning, chain-of-thought, lora, sft, multimodal, vision, tool-use, function-calling, long-context, image-text-to-text, en, zh, es, ru, ja, base_model:unsloth/Qwen3.6-35B-A3B, base_model:adapter:unsloth/Qwen3.6-35B-A3B, license:apache-2.0, endpoints_compatible, region:us, conversational
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 09:03

Jackrong/Qwopus3.6-35B-A3B-v1-GGUF · Hugging Face

来源:https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%8C%9F-qwopus36-35b-a3b-v1🌟 Qwopus3.6-35B-A3B-v1

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%92%A1-base-model-overview💡 基础模型概览

Qwen3.6-35B-A3B 是由阿里云开发的一款先进的混合稀疏 MoE(混合专家)模型。它拥有 35B 总参数量,但每 token 仅激活 3B 参数,确保了高效的推理性能。在架构上,它结合了 Gated DeltaNet 线性注意力与标准门控注意力层,将 token 路由至 256 个专家。该模型原生支持 262k 上下文窗口,专为高性能智能体编程、深度推理和多模态任务而设计。

基础模型基准测试占位图 (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/ztbyGV_zGhzcLuTCSVyq3.png)


https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%9A%80-model-refinement–logic-tuning-%EF%BC%88qwopus36-35b-a3b-v1%EF%BC%89🚀 模型精修与逻辑调优(Qwopus3.6-35B-A3B-v1)

🪐 Qwopus3.6-35B-A3B-v1 是基于 Qwen3.6-35B-A3B 进行微调后的推理增强型 MoE(混合专家)模型。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%9B%A0-training-strategy🛠 训练策略

该模型的微调过程分为 三个阶段的分布式 SFT(有监督微调),逐步提升推理复杂度和数据多样性。这种系统化的方法确保模型在继承基础 MoE 能力的同时,增强逻辑处理的深度。

展望未来,后续版本将引入 强化学习(RL) 训练,以进一步优化推理路径和对齐性能。

本版本采用 LoRA 微调,但独特地扩大了可训练参数规模,约有 9% 的模型参数参与更新。这使得推理能力能够得到更深层次的适配,同时保持参数高效微调的效率。然而,对于该 MoE 架构而言,将可训练参数设置为 9% 是一种高风险的配置,因为它显著增加了训练不稳定性和权重合并冲突的可能性。

视觉与工具调用支持:该模型支持视觉能力和工具调用。要启用视觉功能,请将 GGUF 仓库 (https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1) 中的 mmproj.gguf 文件放置在与主 .gguf 文件相同的目录下。

它的设计目标包括:

  • 🧩 更具结构化的推理
  • 🪶 更一致的回答风格
  • 🔁 更好的跨来源蒸馏对齐
  • ⚡ 为后续更大规模版本奠定更强的基础

社区版本声明:Qwopus3.6-35B-A3B-v1 尚未 经过完整的性能评估或安全测试。它纯粹作为实验性社区版本发布,用于研究和探索。


https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%A7%AA-data-composition–context-length-mix🧪 数据构成与上下文长度混合

该模型在精心策划的数据集上进行训练,涵盖广泛的领域,包括 数学、代码、科学、多语言对话和指令遵循

为了平衡不同能力,训练数据被划分为四个主要的上下文长度区间,混合了:

  • 短格式稳定样本
  • 中等复杂度推理样本
  • 长上下文高质量样本
  • 少量回放样本

上下文长度分布:

  • < 4096 tokens:专注于建立稳定格式和基础推理的短上下文数据。
  • 4096 - 8192 tokens:引入更高推理复杂度的中上下文数据。
  • 8192 - 16384 tokens:长上下文推理数据,其中包含 10% 的短样本回放 以防止基本指令遵循能力的灾难性遗忘。
  • 16384 - 32K tokens:少量多轮对话,以保持扩展交互能力。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%8E%AF-three-stage-curriculum-learning🎯 三阶段课程学习

Qwopus3.6-35B-A3B-v1 采用课程学习风格的分阶段推理数据混合,逐步增加训练信号的难度和复杂度:

  1. 早期阶段(格式建立):专注于短至中等长度、格式稳定的推理样本。此阶段的主要目标是在不给模型带来极端复杂性的前提下,建立可靠、结构化的新推理格式。
  2. 中期阶段(复杂度扩展与多教师蒸馏):逐步增加来自多个教师模型的复杂推理样本比例。- 蒸馏数据来源于一个与基础模型风格分布 closely 匹配的 27B 模型,确保能力差距不会过大而难以有效学习。
  3. 最终阶段(长上下文强化与抗漂移):强化长上下文推理能力。关键的是,该阶段保留 短样本回放,以确保模型维持短上下文指令遵循能力并最小化能力漂移。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%9A%80-quick-evaluation-summary-qwopus36-35b-a3b-v1🚀 快速评估摘要:Qwopus3.6-35B-A3B-v1

与之前的稠密架构相比,该模型在 推理效率单次生成质量 方面实现了显著飞跃。通过利用混合 MoE 结构(35B 总参数 / 3B 激活参数)和 Gated DeltaNet 线性注意力,它在高吞吐量和深度推理能力之间取得了平衡。

Screenshot 2026-05-07 at 10.27.57 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/GddluL8DyZhoPt7qH7AEH.png)

  • 无与伦比的速度:在 RTX 5090 上平均达到 161.9 tok/s,比 27B 稠密前代模型快 2.6 倍,使其成为单 GPU 消费级硬件上可用的高参数量模型中最快的之一。
  • 生产级前端设计:被评为 单次 HTML/CSS 生成 最强的开源模型之一。与仅提供表层脚手架的模型不同,该模型能够生成完整、功能完善的页面,包含复杂的微交互、动画组件和生产就绪的逻辑。
  • 无饥饿推理:成功解决了早期版本中出现的“思考饥饿“问题。在长上下文 JSON 提取和多步智能体规划中保持稳健性能,即使在大量内部推理痕迹后仍能输出有效的结构化数据。
  • 架构效率Gated DeltaNet 的集成实现了巨大的 262K 原生上下文窗口,同时优化了显存使用,即使序列长度增加,内存需求也几乎保持平稳。

结论:对于需要在单 GPU 设置上实现高吞吐量、擅长 UI/UX 生成和复杂逻辑推理的智能体模型的开发者来说,这是首选。以下是基于 Kyle Hessling 的 🔗 Qwopus3.6-35B-A3B-v1 综合评估报告 (https://huggingface.co/spaces/KyleHessling1/qwopus36-35b-a3b-eval) 的模型卡摘要。

Screenshot 2026-05-07 at 10.28.27 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/p_gcu-OJ2qZZbRh0xk-Q9.png)

Screenshot 2026-05-07 at 10.28.42 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/WxSAU2odtUB94Dt6ANVc4.png)

Screenshot 2026-05-07 at 10.28.56 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/vPa3gFqXzFbjN7kv8qrQO.png)

Screenshot 2026-05-07 at 10.29.09 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/PPXgtZRtfzis6UH3y60Rq.png)

Screenshot 2026-05-07 at 10.35.30 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/pj0W7FZPLxHcX7b_cVGW0.png)


https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%E2%9A%A0%EF%B8%8F-known-training–deployment-issues-important⚠️ 已知的训练与部署问题(重要)

由于 Qwen3.6 MoE 模型的架构复杂性,在训练和权重合并过程中遇到了若干技术挑战。用户应注意以下潜在的不稳定性:

MoE 架构兼容性问题 - MoE 专家层的权重结构与标准稠密模型差异显著。- PEFT/LoRATransformers 5.x 的融合专家模式Unsloth 补丁 之间存在已知的、容易触发的不兼容性。- 即使使用最新的环境和依赖项,训练后将 LoRA 权重合并到基础模型时仍可能失败或遇到严重的兼容性 bug。- 常见错误:在权重合并阶段,您可能会遇到 ModuleNotFoundError: Could not import module 'Qwen3_5MoeForConditionalGeneration' 或类似的结构不匹配错误。

如果您尝试在本地对该 MoE 架构进行微调或合并权重,请谨慎操作,并准备好手动修补模型定义文件或降级特定的库版本。


https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%93%9A-resources–guides📚 资源与指南

👉 GitHub 仓库:Jackrong-llm-finetuning-guide (https://github.com/R6410418/Jackrong-llm-finetuning-guide.git) 访问该仓库以深入了解代码库,并在本地或 Colab 上复现结果。


https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%99%8F-acknowledgements🙏 致谢

特别感谢:

  • Qwen 团队提供的强大 Qwen3.6 MoE 基础模型。
  • Unsloth 提供的高效微调框架。
  • 开源数据集和社区贡献者。
  • Kyle Hessling 提供的慷慨硬件和设备支持。您可以在 X / Twitter 上关注他获取更多更新:@KyleHessling1 (https://x.com/KyleHessling1)。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%93%96-citation📖 引用

@misc{jackrong_qwopus36_35b_a3b_v1, title = {Qwopus3.6-35B-A3B-v1}, author = {Jackrong}, year = {2026}, publisher = {Hugging Face} }

相似文章

Jackrong/Qwopus-GLM-18B-Merged-GGUF

Hugging Face Models Trending

Jackrong 发布了 Qwopus-GLM-18B-Merged-GGUF,这是一个结合两个 Qwen3.5-9B 微调模型的 64 层“弗兰肯合并”模型,参数规模约 18B。通过 1000 步 LoRA 微调修复了层边界问题。该模型在能力基准测试中达到 90.9%,而显存消耗不到 Qwen 3.6-35B MoE 的一半。

Qwen/Qwen3.6-35B-A3B-FP8

Hugging Face Models Trending

阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。

Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

Hugging Face Models Trending

Jackrong 发布了 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,这是一个经过微调的 27B 参数模型,具有改进的推理能力和稳定性,并在 GitHub 上提供了使用 Unsloth 框架的全面训练指南和代码。

Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

Hugging Face Models Trending

本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。

Qwen/Qwen3.6-27B-FP8

Hugging Face Models Trending

阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。