Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

Hugging Face Models Trending 2026/05/06 10:02 模型

ai-model fine-tuning mixture-of-experts reasoning gguf qwen

摘要

Jackrong 发布 Qwopus3.6-35B-A3B-v1，基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本，针对逻辑推理和智能体编程优化，拥有 350 亿总参数和 30 亿激活参数。

任务：image-text-to-text 标签：transformers, gguf, text-generation-inference, unsloth, qwen3_6, moe, reasoning, chain-of-thought, lora, sft, multimodal, vision, tool-use, function-calling, long-context, image-text-to-text, en, zh, es, ru, ja, base_model:unsloth/Qwen3.6-35B-A3B, base_model:adapter:unsloth/Qwen3.6-35B-A3B, license:apache-2.0, endpoints_compatible, region:us, conversational

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 09:03

Jackrong/Qwopus3.6-35B-A3B-v1-GGUF · Hugging Face

来源：https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%8C%9F-qwopus36-35b-a3b-v1🌟 Qwopus3.6-35B-A3B-v1

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%92%A1-base-model-overview💡 基础模型概览

Qwen3.6-35B-A3B 是由阿里云开发的一款先进的混合稀疏 MoE（混合专家）模型。它拥有 35B 总参数量，但每 token 仅激活 3B 参数，确保了高效的推理性能。在架构上，它结合了 Gated DeltaNet 线性注意力与标准门控注意力层，将 token 路由至 256 个专家。该模型原生支持 262k 上下文窗口，专为高性能智能体编程、深度推理和多模态任务而设计。

基础模型基准测试占位图 (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/ztbyGV_zGhzcLuTCSVyq3.png)

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%9A%80-model-refinement–logic-tuning-%EF%BC%88qwopus36-35b-a3b-v1%EF%BC%89🚀 模型精修与逻辑调优（Qwopus3.6-35B-A3B-v1）

🪐 Qwopus3.6-35B-A3B-v1 是基于 Qwen3.6-35B-A3B 进行微调后的推理增强型 MoE（混合专家）模型。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%9B%A0-training-strategy🛠 训练策略

该模型的微调过程分为 三个阶段的分布式 SFT（有监督微调），逐步提升推理复杂度和数据多样性。这种系统化的方法确保模型在继承基础 MoE 能力的同时，增强逻辑处理的深度。

展望未来，后续版本将引入 强化学习（RL） 训练，以进一步优化推理路径和对齐性能。

本版本采用 LoRA 微调，但独特地扩大了可训练参数规模，约有 9% 的模型参数参与更新。这使得推理能力能够得到更深层次的适配，同时保持参数高效微调的效率。然而，对于该 MoE 架构而言，将可训练参数设置为 9% 是一种高风险的配置，因为它显著增加了训练不稳定性和权重合并冲突的可能性。

视觉与工具调用支持：该模型支持视觉能力和工具调用。要启用视觉功能，请将 GGUF 仓库 (https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1) 中的 mmproj.gguf 文件放置在与主 .gguf 文件相同的目录下。

它的设计目标包括：

🧩 更具结构化的推理
🪶 更一致的回答风格
🔁 更好的跨来源蒸馏对齐
⚡ 为后续更大规模版本奠定更强的基础

社区版本声明：Qwopus3.6-35B-A3B-v1 尚未经过完整的性能评估或安全测试。它纯粹作为实验性社区版本发布，用于研究和探索。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%A7%AA-data-composition–context-length-mix🧪 数据构成与上下文长度混合

该模型在精心策划的数据集上进行训练，涵盖广泛的领域，包括 数学、代码、科学、多语言对话和指令遵循。

为了平衡不同能力，训练数据被划分为四个主要的上下文长度区间，混合了：

短格式稳定样本
中等复杂度推理样本
长上下文高质量样本
少量回放样本

上下文长度分布：

< 4096 tokens：专注于建立稳定格式和基础推理的短上下文数据。
4096 - 8192 tokens：引入更高推理复杂度的中上下文数据。
8192 - 16384 tokens：长上下文推理数据，其中包含 10% 的短样本回放 以防止基本指令遵循能力的灾难性遗忘。
16384 - 32K tokens：少量多轮对话，以保持扩展交互能力。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%8E%AF-three-stage-curriculum-learning🎯 三阶段课程学习

Qwopus3.6-35B-A3B-v1 采用课程学习风格的分阶段推理数据混合，逐步增加训练信号的难度和复杂度：

早期阶段（格式建立）：专注于短至中等长度、格式稳定的推理样本。此阶段的主要目标是在不给模型带来极端复杂性的前提下，建立可靠、结构化的新推理格式。
中期阶段（复杂度扩展与多教师蒸馏）：逐步增加来自多个教师模型的复杂推理样本比例。- 蒸馏数据来源于一个与基础模型风格分布 closely 匹配的 27B 模型，确保能力差距不会过大而难以有效学习。
最终阶段（长上下文强化与抗漂移）：强化长上下文推理能力。关键的是，该阶段保留 短样本回放，以确保模型维持短上下文指令遵循能力并最小化能力漂移。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%9A%80-quick-evaluation-summary-qwopus36-35b-a3b-v1🚀 快速评估摘要：Qwopus3.6-35B-A3B-v1

与之前的稠密架构相比，该模型在 推理效率 和 单次生成质量 方面实现了显著飞跃。通过利用混合 MoE 结构（35B 总参数 / 3B 激活参数）和 Gated DeltaNet 线性注意力，它在高吞吐量和深度推理能力之间取得了平衡。

Screenshot 2026-05-07 at 10.27.57 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/GddluL8DyZhoPt7qH7AEH.png)

无与伦比的速度：在 RTX 5090 上平均达到 161.9 tok/s，比 27B 稠密前代模型快 2.6 倍，使其成为单 GPU 消费级硬件上可用的高参数量模型中最快的之一。
生产级前端设计：被评为 单次 HTML/CSS 生成 最强的开源模型之一。与仅提供表层脚手架的模型不同，该模型能够生成完整、功能完善的页面，包含复杂的微交互、动画组件和生产就绪的逻辑。
无饥饿推理：成功解决了早期版本中出现的“思考饥饿“问题。在长上下文 JSON 提取和多步智能体规划中保持稳健性能，即使在大量内部推理痕迹后仍能输出有效的结构化数据。
架构效率：Gated DeltaNet 的集成实现了巨大的 262K 原生上下文窗口，同时优化了显存使用，即使序列长度增加，内存需求也几乎保持平稳。

结论：对于需要在单 GPU 设置上实现高吞吐量、擅长 UI/UX 生成和复杂逻辑推理的智能体模型的开发者来说，这是首选。以下是基于 Kyle Hessling 的 🔗 Qwopus3.6-35B-A3B-v1 综合评估报告 (https://huggingface.co/spaces/KyleHessling1/qwopus36-35b-a3b-eval) 的模型卡摘要。

Screenshot 2026-05-07 at 10.28.27 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/p_gcu-OJ2qZZbRh0xk-Q9.png)

Screenshot 2026-05-07 at 10.28.42 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/WxSAU2odtUB94Dt6ANVc4.png)

Screenshot 2026-05-07 at 10.28.56 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/vPa3gFqXzFbjN7kv8qrQO.png)

Screenshot 2026-05-07 at 10.29.09 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/PPXgtZRtfzis6UH3y60Rq.png)

Screenshot 2026-05-07 at 10.35.30 AM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/pj0W7FZPLxHcX7b_cVGW0.png)

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%E2%9A%A0%EF%B8%8F-known-training–deployment-issues-important⚠️ 已知的训练与部署问题（重要）

由于 Qwen3.6 MoE 模型的架构复杂性，在训练和权重合并过程中遇到了若干技术挑战。用户应注意以下潜在的不稳定性：

MoE 架构兼容性问题 - MoE 专家层的权重结构与标准稠密模型差异显著。- PEFT/LoRA、Transformers 5.x 的融合专家模式 和 Unsloth 补丁 之间存在已知的、容易触发的不兼容性。- 即使使用最新的环境和依赖项，训练后将 LoRA 权重合并到基础模型时仍可能失败或遇到严重的兼容性 bug。- 常见错误：在权重合并阶段，您可能会遇到 ModuleNotFoundError: Could not import module 'Qwen3_5MoeForConditionalGeneration' 或类似的结构不匹配错误。

如果您尝试在本地对该 MoE 架构进行微调或合并权重，请谨慎操作，并准备好手动修补模型定义文件或降级特定的库版本。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%93%9A-resources–guides📚 资源与指南

👉 GitHub 仓库：Jackrong-llm-finetuning-guide (https://github.com/R6410418/Jackrong-llm-finetuning-guide.git) 访问该仓库以深入了解代码库，并在本地或 Colab 上复现结果。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%99%8F-acknowledgements🙏 致谢

特别感谢：

Qwen 团队提供的强大 Qwen3.6 MoE 基础模型。
Unsloth 提供的高效微调框架。
开源数据集和社区贡献者。
Kyle Hessling 提供的慷慨硬件和设备支持。您可以在 X / Twitter 上关注他获取更多更新：@KyleHessling1 (https://x.com/KyleHessling1)。

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%93%96-citation📖 引用

@misc{jackrong_qwopus36_35b_a3b_v1, title = {Qwopus3.6-35B-A3B-v1}, author = {Jackrong}, year = {2026}, publisher = {Hugging Face} }

Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

Jackrong/Qwopus3.6-35B-A3B-v1-GGUF · Hugging Face

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%8C%9F-qwopus36-35b-a3b-v1🌟 Qwopus3.6-35B-A3B-v1

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%92%A1-base-model-overview💡 基础模型概览

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%9A%80-model-refinement–logic-tuning-%EF%BC%88qwopus36-35b-a3b-v1%EF%BC%89🚀 模型精修与逻辑调优（Qwopus3.6-35B-A3B-v1）

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%9B%A0-training-strategy🛠 训练策略

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%A7%AA-data-composition–context-length-mix🧪 数据构成与上下文长度混合

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%8E%AF-three-stage-curriculum-learning🎯 三阶段课程学习

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%9A%80-quick-evaluation-summary-qwopus36-35b-a3b-v1🚀 快速评估摘要：Qwopus3.6-35B-A3B-v1

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%E2%9A%A0%EF%B8%8F-known-training–deployment-issues-important⚠️ 已知的训练与部署问题（重要）

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%93%9A-resources–guides📚 资源与指南

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%99%8F-acknowledgements🙏 致谢

https://huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1-GGUF#%F0%9F%93%96-citation📖 引用

相似文章

Jackrong/Qwopus-GLM-18B-Merged-GGUF

Qwen/Qwen3.6-35B-A3B-FP8

Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

Qwen/Qwen3.6-27B-FP8

提交意见反馈