Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

Hugging Face Models Trending 模型

摘要

本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。

任务:图文到文本 标签:transformers, gguf, text-generation-inference, unsloth, qwen3_5, 推理, 知识蒸馏, deepseek, deepseek-v4, sft, 长思维链, 思维链, 高效推理, 智能体, 多语言, 图文到文本, 英文, 中文, 韩文, 日文, 西班牙文, 俄文, 数据集:Jackrong/DeepSeek-V4-Distill-8000x, arxiv:2604.06628, 基础模型:unsloth/Qwen3.5-9B, 基础模型:量化:unsloth/Qwen3.5-9B, 许可证:apache-2.0, 兼容端点, 区域:美国, 对话式
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:07

Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF · Hugging Face

来源:https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%8C%9F-qwen35-9b-deepseek-v4-flash Qwen3.5-9B-DeepSeek-V4-Flash

https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%92%A1-model-overview–design💡 模型概述与设计

ChatGPT Image Apr 24, 2026 at 04_32_09 PM (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/J3m3YKzmCmDtbKOZNPCW-.png)

Qwen3.5-9B-DeepSeek-V4-Flash 是一款高效的推理模型,通过 DeepSeek-V4 的高质量数据蒸馏而成。

  • 借助数据集 Jackrong/DeepSeek-V4-Distill-8000x,该模型成功将 DeepSeek-V4 架构的先进结构化推理与多步问题解决能力迁移到了高效的 Qwen3.5-9B 参数空间中。
  • 该模型在 Unsloth 环境下训练,优先保证梯度稳定传播和严格的数据筛选,确保蒸馏过程避免仅学习“空洞的思维链“,而是真正掌握逻辑泛化能力。

设计目标:

  • 🧩 结构化推理:继承 DeepSeek-V4 的深度逻辑能力
  • 快速推理:保持 9B 参数规模的 token 效率与速度
  • 🔧 工具增强工作流:可靠的智能体动作生成

https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%8D%8E-about-the-teacher-model-deepseek-v4🍎 教师模型介绍:DeepSeek-V4

dsv4_performance (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/iBQ7B-z3bpdmsJkdmEPGC.png)

DeepSeek-V4 (https://huggingface.co/collections/deepseek-ai/deepseek-v4) 是 DeepSeek 最新的旗舰开源模型系列,专为极致效率、百万 token 长上下文(1M)和高级智能体工作流而设计。作为本次蒸馏的来源,DeepSeek-V4 提供了高保真度的推理信号,使 9B 模型能够突破其架构限制。

教师模型的核心技术优势:

  • 🏆 世界级推理与编程能力: DeepSeek-V4 在数学(MATH-500)、STEM 学科和真实软件工程(SWE-bench)方面表现出精英级性能。其“思考“模式提供了定义该模型逻辑的复杂长思维链(Long-CoT)轨迹。
  • 🧠 架构创新:
    • 混合注意力与 DSA: 采用 token 级压缩和 DeepSeek 稀疏注意力,将 KV 缓存内存开销降低高达 90%,实现高效的长上下文处理。
    • Engram Memory 与 mHC: 利用流形约束超连接(Manifold-constrained Hyper-connections)将事实知识检索与动态逻辑推理解耦,确保卓越的稳定性和泛化能力。
  • 🤖 智能体中心设计: 专为多步工具调用和复杂环境交互优化,确保蒸馏出的知识包含可靠的“如何行动“程序,而非仅仅是“如何交谈“。

通过从 DeepSeek-V4-Flash 蒸馏,我们成功将万亿参数级别模型的高密度逻辑映射到了敏捷高速的 Qwen3.5-9B 框架上。


https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%A4%9D-collaboration–training-details🤝 合作与训练细节

该模型是与硬件工程师 Kyle Hessling 紧密合作的成果。他慷慨提供了关键的计算设备,并负责严格的后训练测试和持续的服务器维护。在此向 Kyle 的宝贵支持表示感谢!您可以在 X/Twitter 上找到他:@KyleHessling1 (https://x.com/KyleHessling1)

训练基础设施与配置:

  • 🖥️ 硬件: NVIDIA DGX
  • 💾 训练数据: DeepSeek-V4-Distill-8000x
  • 🧪 训练方法: 蒸馏

https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%8E%AF-motivation–distillation-insights🎯 动机与蒸馏洞见

  • 🧠 潜在知识激活:DeepSeek-V4 的推理轨迹帮助 Qwen3.5-9B 模型更有效地激活其已有的潜在知识。
  • 🏗️ 学习程序:模型学习的是实际的问题解决程序,而非仅仅是输出格式。
  • 🚀 效率:8000 倍数据集提供了密集信号,使 9B 模型在推理任务上的收敛速度远超传统大规模 SFT。

https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%93%8A-evaluation📊 评测

这是 Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash 与官方 Qwen3.5-9B 基础模型的早期受控 Q5_K_M 对比。Kyle Hessling 在相同的本地推理条件下,分别对 DeepSeek-V4 蒸馏模型和官方 Qwen3.5-9B 基础模型运行了同一套评测套件。

  • ❤️ 特别感谢 Kyle 的细致后训练测试和详细对比报告。您可以在 X/Twitter 上找到他:@KyleHessling1 (https://x.com/KyleHessling1)
  • 📄 完整评测报告:KyleHessling1/jackrong-deepseek-9b-eval (https://huggingface.co/spaces/KyleHessling1/jackrong-deepseek-9b-eval)

Evaluation Report (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/GtqFy-my7GXQ3xRRXTxYp.png)

Comparison Method (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/-w7X_kpErCPYV5QHB-jw3.png)

Agentic Reasoning Results (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/DFAx6miaEoXuqmSPSSJAC.png)

Front-end Design Results (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/W_mUxkwfRYcZOyGy4sPx2.png)

Tool Calling Results (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/rCJPUY0KnB8mkyI7yAI-3.png)

Evaluation Setup (https://cdn-uploads.huggingface.co/production/uploads/66309bd090589b7c65950665/6mzcBTSgLLT_kL1dHafAy.png)


https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%94%AC-supporting-evidence🔬 支撑证据

近期工作和实证测试支持这一蒸馏方法:

Ren et al., 2026 — Rethinking Generalization in Reasoning SFT (arXiv:2604.06628 (https://arxiv.org/abs/2604.06628))

该论文指出推理 SFT 中的泛化是有条件的。关键要点:

  • 来自 DeepSeek-V4 的高质量长思维链数据能够实现跨领域迁移。
  • 优化纪律:简短、高度精选的蒸馏(8000 条示例)可防止模型过拟合教师模型的风格怪癖,同时保留核心推理引擎。

https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%9B%A0%EF%B8%8F-best-practices🛠️ 最佳实践

为获得最佳性能,我们推荐以下生成参数:

  • temperature=0.71.0(严格编码任务使用较低温度,创意推理使用较高温度)
  • top_p=0.95

与模型交互时,使用结构化提示模板或标准 ChatML 格式将获得最佳推理效果。


https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%93%9A-resources–guides📚 资源与指南

👉 GitHub 仓库:Jackrong-llm-finetuning-guide (https://github.com/R6410418/Jackrong-llm-finetuning-guide.git) 访问仓库以深入了解代码库,并在本地或 Colab 上复现结果。

https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%93%A5-core-technical-document📥 核心技术文档

🔗 完整微调指南(PDF)(https://github.com/R6410418/Jackrong-llm-finetuning-guide/blob/main/guidePDF/Qwopus3-5-9b-Colab_complete_guide_to_llm_finetuning.pdf)

附言: 我的目标不仅是详细描述工作流程,而是让 LLM 训练不再神秘。抛开社交媒体上的炒作,微调并非高不可攀的仪式——通常,你只需要一个 Google 账号、一台普通笔记本电脑和无尽的好奇心。本项目的所有训练和测试均为自费。如果您觉得这个模型或指南有帮助,在 GitHub 上点个 Star ⭐️ 将是最大的鼓励。谢谢!🙏


https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%E2%9A%A0%EF%B8%8F-limitations⚠️ 局限性

  • 参数限制:尽管通过 DeepSeek-V4 蒸馏得到了增强,该模型仍受限于 9B 参数规模,可能在极其冷门的知识上表现不足。
  • 过度推理:对于非常简单的查询,由于 SFT 偏差,模型仍可能尝试生成冗长的推理链。
  • 安全权衡:非对称性提升意味着推理能力提高的同时,某些对齐敏感的行为可能会退化。

https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%99%8F-acknowledgements🙏 致谢

特别感谢:

  • DeepSeek 团队 在 V4 架构上的基础性突破
  • Unsloth 提供的高效微调框架
  • 开源数据集和社区贡献者
  • 探索推理 SFT 和蒸馏的研究者们

https://huggingface.co/Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF#%F0%9F%93%96-citation📖 引用

@misc{jackrong_qwen35_9b_deepseek_v4_flash,
  title        = {Qwen3.5-9B-DeepSeek-V4-Flash},
  author       = {Jackrong},
  year         = {2026},
  publisher    = {Hugging Face}
}

相似文章

Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

Hugging Face Models Trending

Jackrong 发布 Qwopus3.6-35B-A3B-v1,基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本,针对逻辑推理和智能体编程优化,拥有 350 亿总参数和 30 亿激活参数。

Jackrong/Qwopus3.6-27B-v2-GGUF

Hugging Face Models Trending

Qwopus3.6-27B-v2是Qwen3.6-27B的推理增强微调版本,使用Trace Inversion数据集和课程学习,以GGUF格式发布以实现高效推理。

Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

Hugging Face Models Trending

Jackrong 发布了 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,这是一个经过微调的 27B 参数模型,具有改进的推理能力和稳定性,并在 GitHub 上提供了使用 Unsloth 框架的全面训练指南和代码。

Qwen/Qwen3.6-27B-FP8

Hugging Face Models Trending

阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。

Qwen/Qwen3.6-35B-A3B

Hugging Face Models Trending

Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。