hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
摘要
一个 35B 参数的 Qwen3.6 模型,使用 Claude-Opus 风格的思维链蒸馏数据微调,并以 GGUF 量化格式发布,可在本地高效推理。
查看缓存全文
缓存时间: 2026/04/22 02:07
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF · Hugging Face
来源:https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#%F0%9F%94%A5-qwen36-35b-a3b-claude-46-opus-reasoning-distilled-gguf🔥 Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled(https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled)的 GGUF 量化版本,这是基于 Claude Opus 4.6 风格思维链蒸馏数据对 Qwen/Qwen3.6-35B-A3B 进行的推理 SFT 微调。
源微调仅使用文本。Qwen3.6 基础架构包含视觉编码器,但本次微调未使用图像或视频样本。请将这些 GGUF 文件视为合并后微调检查点的文本生成/运行时量化版本。
- 开发者:@hesamation(https://x.com/Hesamation)
- 源模型:
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled(https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled) - 基础模型:
Qwen/Qwen3.6-35B-A3B(https://huggingface.co/Qwen/Qwen3.6-35B-A3B) - **许可证:**apache-2.0
本次微调灵感来自 Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled(https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled),包括 notebook/训练工作流风格以及 Claude Opus 推理蒸馏方向。
在 X 上关注(https://x.com/Hesamation)Discord(https://discord.gg/vtJykN3t)
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#available-gguf-quantizations可用的 GGUF 量化版本
本仓库旨在托管以下 GGUF 变体。每个量化完成后即上传文件。
量化类型典型用途Q4_K_M本地推理最小可用通用量化Q5_K_M比 Q4 更好的质量/体积平衡Q6_K显存/内存预算允许时的高质量量化Q8_0此处最大量化;这些选项中最接近源质量
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#benchmark-results基准测试结果
以下基准在合并后的源模型上运行,而非在每个 GGUF 量化上单独测试。量化会改变分数,尤其在较低比特率时,请将其视为源检查点参考。
MMLU-Pro 测试每模型共使用 70 题:14 个 MMLU-Pro 学科各 --limit 5。请将其视为快速/对比检查,而非发布级完整基准。
基准工具每模型样本数设置指标基础模型源合并模型差值MMLU-Pro 总体lm-evaluation-harness7014 学科各 --limit 5exact_match, custom-extract42.86%75.71%+32.85 pp
基础模型:Qwen/Qwen3.6-35B-A3B。源合并模型:hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled。
欢迎社区基准 为了更好地了解本次微调模型及其 GGUF 量化,欢迎独立基准结果。如运行评测,请注明基准名称、工具/脚本、样本数、解码设置、量化文件及原始日志或结果文件(如有)。可通过提交 PR/讨论或在 X 上私信 @hesamation(https://x.com/Hesamation)分享结果。
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#training-summary训练摘要
Qwen/Qwen3.6-35B-A3B -> 使用 LoRA 进行监督微调 -> 合并完整模型 -> 使用 llama.cpp 进行 GGUF 量化
设置值微调方法使用 LoRA 的监督微调LoRA 目标仅注意力模块LoRA rank / alpha32 / 32微批次大小1梯度累积32轮数2已完成步数762 / 762最终报告训练损失0.3362497625740494数据集最大 token 数8192最大序列长度32768
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#training-data训练数据
源模型对三个数据集的推理对话进行采样与归一化,然后使用 qwen3-thinking 聊天模板渲染,并采用仅响应 SFT 掩码。
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#intended-use预期用途
这些 GGUF 文件旨在通过支持 GGUF 和 Qwen3.6 架构的运行时(如最新版 llama.cpp)进行本地或服务器端文本推理。根据内存预算与质量目标选择量化版本。
由于微调仅使用文本,图像/视频行为应视为继承自基础模型,而非本次训练所提升。
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#acknowledgements致谢
感谢 Qwen 团队提供基础模型,Unsloth(https://github.com/unslothai/unsloth)提供训练框架,llama.cpp(https://github.com/ggerganov/llama.cpp)提供 GGUF 工具,以及 Jackrong(https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled)公开推理蒸馏工作流,启发本次微调。
相似文章
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
Jackrong 发布了 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,这是一个经过微调的 27B 参数模型,具有改进的推理能力和稳定性,并在 GitHub 上提供了使用 Unsloth 框架的全面训练指南和代码。
DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF
基于 Qwen 3.6 27B 模型的社区微调去审查版本,提供高精度 GGUF 量化。
KyleHessling1/Qwopus-GLM-18B-Merged-GGUF
实验性 18B 参数模型:将两个 Qwen-3.5-9B 微调模型堆叠后,用 1000 步 QLoRA“缝合”层边界;生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE,却只占 9.2 GB 显存。
Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。
Qwen/Qwen3.6-35B-A3B-FP8
阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。