Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
摘要
本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。
查看缓存全文
缓存时间: 2026/05/08 09:07
Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF · Hugging Face
来源:https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%8C%9F-qwen35-9b-deepseek-v4-flash Qwen3.5-9B-DeepSeek-V4-Flash
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%92%A1-model-overview–design💡 模型概述与设计
ChatGPT Image Apr 24, 2026 at 04_32_09 PM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/J3m3YKzmCmDtbKOZNPCW-.png)
Qwen3.5-9B-DeepSeek-V4-Flash 是一款高效的推理模型,通过 DeepSeek-V4 的高质量数据蒸馏而成。
- 借助数据集 Jackrong/DeepSeek-V4-Distill-8000x,该模型成功将 DeepSeek-V4 架构的先进结构化推理与多步问题解决能力迁移到了高效的 Qwen3.5-9B 参数空间中。
- 该模型在 Unsloth 环境下训练,优先保证梯度稳定传播和严格的数据筛选,确保蒸馏过程避免仅学习“空洞的思维链“,而是真正掌握逻辑泛化能力。
设计目标:
- 🧩 结构化推理:继承 DeepSeek-V4 的深度逻辑能力
- ⚡ 快速推理:保持 9B 参数规模的 token 效率与速度
- 🔧 工具增强工作流:可靠的智能体动作生成
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%8D%8E-about-the-teacher-model-deepseek-v4🍎 教师模型介绍:DeepSeek-V4
dsv4_performance (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/iBQ7B-z3bpdmsJkdmEPGC.png)
DeepSeek-V4 (https://huggingface.co/collections/deepseek-ai/deepseek-v4) 是 DeepSeek 最新的旗舰开源模型系列,专为极致效率、百万 token 长上下文(1M)和高级智能体工作流而设计。作为本次蒸馏的来源,DeepSeek-V4 提供了高保真度的推理信号,使 9B 模型能够突破其架构限制。
教师模型的核心技术优势:
- 🏆 世界级推理与编程能力: DeepSeek-V4 在数学(MATH-500)、STEM 学科和真实软件工程(SWE-bench)方面表现出精英级性能。其“思考“模式提供了定义该模型逻辑的复杂长思维链(Long-CoT)轨迹。
- 🧠 架构创新:
- 混合注意力与 DSA: 采用 token 级压缩和 DeepSeek 稀疏注意力,将 KV 缓存内存开销降低高达 90%,实现高效的长上下文处理。
- Engram Memory 与 mHC: 利用流形约束超连接(Manifold-constrained Hyper-connections)将事实知识检索与动态逻辑推理解耦,确保卓越的稳定性和泛化能力。
- 🤖 智能体中心设计: 专为多步工具调用和复杂环境交互优化,确保蒸馏出的知识包含可靠的“如何行动“程序,而非仅仅是“如何交谈“。
通过从 DeepSeek-V4-Flash 蒸馏,我们成功将万亿参数级别模型的高密度逻辑映射到了敏捷高速的 Qwen3.5-9B 框架上。
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%A4%9D-collaboration–training-details🤝 合作与训练细节
该模型是与硬件工程师 Kyle Hessling 紧密合作的成果。他慷慨提供了关键的计算设备,并负责严格的后训练测试和持续的服务器维护。在此向 Kyle 的宝贵支持表示感谢!您可以在 X/Twitter 上找到他:@KyleHessling1 (https://x.com/KyleHessling1)
训练基础设施与配置:
- 🖥️ 硬件: NVIDIA DGX
- 💾 训练数据: DeepSeek-V4-Distill-8000x
- 🧪 训练方法: 蒸馏
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%8E%AF-motivation–distillation-insights🎯 动机与蒸馏洞见
- 🧠 潜在知识激活:DeepSeek-V4 的推理轨迹帮助 Qwen3.5-9B 模型更有效地激活其已有的潜在知识。
- 🏗️ 学习程序:模型学习的是实际的问题解决程序,而非仅仅是输出格式。
- 🚀 效率:8000 倍数据集提供了密集信号,使 9B 模型在推理任务上的收敛速度远超传统大规模 SFT。
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%93%8A-evaluation📊 评测
这是 Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash 与官方 Qwen3.5-9B 基础模型的早期受控 Q5_K_M 对比。Kyle Hessling 在相同的本地推理条件下,分别对 DeepSeek-V4 蒸馏模型和官方 Qwen3.5-9B 基础模型运行了同一套评测套件。
- ❤️ 特别感谢 Kyle 的细致后训练测试和详细对比报告。您可以在 X/Twitter 上找到他:@KyleHessling1 (https://x.com/KyleHessling1)
- 📄 完整评测报告:KyleHessling1/jackrong-deepseek-9b-eval (https://huggingface.co/spaces/KyleHessling1/jackrong-deepseek-9b-eval)
Evaluation Report (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/GtqFy-my7GXQ3xRRXTxYp.png)
Comparison Method (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/-w7X_kpErCPYV5QHB-jw3.png)
Agentic Reasoning Results (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/DFAx6miaEoXuqmSPSSJAC.png)
Front-end Design Results (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/W_mUxkwfRYcZOyGy4sPx2.png)
Tool Calling Results (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/rCJPUY0KnB8mkyI7yAI-3.png)
Evaluation Setup (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/6mzcBTSgLLT_kL1dHafAy.png)
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%94%AC-supporting-evidence🔬 支撑证据
近期工作和实证测试支持这一蒸馏方法:
Ren et al., 2026 — Rethinking Generalization in Reasoning SFT (arXiv:2604.06628 (https://arxiv.org/abs/2604.06628))
该论文指出推理 SFT 中的泛化是有条件的。关键要点:
- 来自 DeepSeek-V4 的高质量长思维链数据能够实现跨领域迁移。
- 优化纪律:简短、高度精选的蒸馏(8000 条示例)可防止模型过拟合教师模型的风格怪癖,同时保留核心推理引擎。
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%9B%A0%EF%B8%8F-best-practices🛠️ 最佳实践
为获得最佳性能,我们推荐以下生成参数:
temperature=0.7至1.0(严格编码任务使用较低温度,创意推理使用较高温度)top_p=0.95
与模型交互时,使用结构化提示模板或标准 ChatML 格式将获得最佳推理效果。
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%93%9A-resources–guides📚 资源与指南
👉 GitHub 仓库:Jackrong-llm-finetuning-guide (https://github.com/R6410418/Jackrong-llm-finetuning-guide.git) 访问仓库以深入了解代码库,并在本地或 Colab 上复现结果。
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%93%A5-core-technical-document📥 核心技术文档
🔗 完整微调指南(PDF)(https://github.com/R6410418/Jackrong-llm-finetuning-guide/blob/main/guidePDF/Qwopus3-5-9b-Colab_complete_guide_to_llm_finetuning.pdf)
附言: 我的目标不仅是详细描述工作流程,而是让 LLM 训练不再神秘。抛开社交媒体上的炒作,微调并非高不可攀的仪式——通常,你只需要一个 Google 账号、一台普通笔记本电脑和无尽的好奇心。本项目的所有训练和测试均为自费。如果您觉得这个模型或指南有帮助,在 GitHub 上点个 Star ⭐️ 将是最大的鼓励。谢谢!🙏
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%E2%9A%A0%EF%B8%8F-limitations⚠️ 局限性
- 参数限制:尽管通过 DeepSeek-V4 蒸馏得到了增强,该模型仍受限于 9B 参数规模,可能在极其冷门的知识上表现不足。
- 过度推理:对于非常简单的查询,由于 SFT 偏差,模型仍可能尝试生成冗长的推理链。
- 安全权衡:非对称性提升意味着推理能力提高的同时,某些对齐敏感的行为可能会退化。
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%99%8F-acknowledgements🙏 致谢
特别感谢:
- DeepSeek 团队 在 V4 架构上的基础性突破
- Unsloth 提供的高效微调框架
- 开源数据集和社区贡献者
- 探索推理 SFT 和蒸馏的研究者们
https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%93%96-citation📖 引用
@misc{jackrong_qwen35_9b_deepseek_v4_flash,
title = {Qwen3.5-9B-DeepSeek-V4-Flash},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face}
}
相似文章
Jackrong/Qwopus3.6-35B-A3B-v1-GGUF
Jackrong 发布 Qwopus3.6-35B-A3B-v1,基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本,针对逻辑推理和智能体编程优化,拥有 350 亿总参数和 30 亿激活参数。
Jackrong/Qwopus3.6-27B-v2-GGUF
Qwopus3.6-27B-v2是Qwen3.6-27B的推理增强微调版本,使用Trace Inversion数据集和课程学习,以GGUF格式发布以实现高效推理。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
Jackrong 发布了 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,这是一个经过微调的 27B 参数模型,具有改进的推理能力和稳定性,并在 GitHub 上提供了使用 Unsloth 框架的全面训练指南和代码。
Qwen/Qwen3.6-27B-FP8
阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。
Qwen/Qwen3.6-35B-A3B
Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。