hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
摘要
一个 35B 参数的 Qwen3.6 模型,使用 Claude-Opus 风格的思维链蒸馏数据微调,并以 GGUF 量化格式发布,可在本地高效推理。
查看缓存全文
缓存时间: 2026/04/22 02:07
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF · Hugging Face
来源:https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#%F0%9F%94%A5-qwen36-35b-a3b-claude-46-opus-reasoning-distilled-gguf🔥 Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled(https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled)的 GGUF 量化版本,这是基于 Claude Opus 4.6 风格思维链蒸馏数据对 Qwen/Qwen3.6-35B-A3B 进行的推理 SFT 微调。
源微调仅使用文本。Qwen3.6 基础架构包含视觉编码器,但本次微调未使用图像或视频样本。请将这些 GGUF 文件视为合并后微调检查点的文本生成/运行时量化版本。
- 开发者:@hesamation(https://x.com/Hesamation)
- 源模型:
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled(https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled) - 基础模型:
Qwen/Qwen3.6-35B-A3B(https://huggingface.co/Qwen/Qwen3.6-35B-A3B) - **许可证:**apache-2.0
本次微调灵感来自 Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled(https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled),包括 notebook/训练工作流风格以及 Claude Opus 推理蒸馏方向。
在 X 上关注(https://x.com/Hesamation)Discord(https://discord.gg/vtJykN3t)
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#available-gguf-quantizations可用的 GGUF 量化版本
本仓库旨在托管以下 GGUF 变体。每个量化完成后即上传文件。
量化类型典型用途Q4_K_M本地推理最小可用通用量化Q5_K_M比 Q4 更好的质量/体积平衡Q6_K显存/内存预算允许时的高质量量化Q8_0此处最大量化;这些选项中最接近源质量
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#benchmark-results基准测试结果
以下基准在合并后的源模型上运行,而非在每个 GGUF 量化上单独测试。量化会改变分数,尤其在较低比特率时,请将其视为源检查点参考。
MMLU-Pro 测试每模型共使用 70 题:14 个 MMLU-Pro 学科各 --limit 5。请将其视为快速/对比检查,而非发布级完整基准。
基准工具每模型样本数设置指标基础模型源合并模型差值MMLU-Pro 总体lm-evaluation-harness7014 学科各 --limit 5exact_match, custom-extract42.86%75.71%+32.85 pp
基础模型:Qwen/Qwen3.6-35B-A3B。源合并模型:hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled。
欢迎社区基准 为了更好地了解本次微调模型及其 GGUF 量化,欢迎独立基准结果。如运行评测,请注明基准名称、工具/脚本、样本数、解码设置、量化文件及原始日志或结果文件(如有)。可通过提交 PR/讨论或在 X 上私信 @hesamation(https://x.com/Hesamation)分享结果。
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#training-summary训练摘要
Qwen/Qwen3.6-35B-A3B -> 使用 LoRA 进行监督微调 -> 合并完整模型 -> 使用 llama.cpp 进行 GGUF 量化
设置值微调方法使用 LoRA 的监督微调LoRA 目标仅注意力模块LoRA rank / alpha32 / 32微批次大小1梯度累积32轮数2已完成步数762 / 762最终报告训练损失0.3362497625740494数据集最大 token 数8192最大序列长度32768
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#training-data训练数据
源模型对三个数据集的推理对话进行采样与归一化,然后使用 qwen3-thinking 聊天模板渲染,并采用仅响应 SFT 掩码。
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#intended-use预期用途
这些 GGUF 文件旨在通过支持 GGUF 和 Qwen3.6 架构的运行时(如最新版 llama.cpp)进行本地或服务器端文本推理。根据内存预算与质量目标选择量化版本。
由于微调仅使用文本,图像/视频行为应视为继承自基础模型,而非本次训练所提升。
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF#acknowledgements致谢
感谢 Qwen 团队提供基础模型,Unsloth(https://github.com/unslothai/unsloth)提供训练框架,llama.cpp(https://github.com/ggerganov/llama.cpp)提供 GGUF 工具,以及 Jackrong(https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled)公开推理蒸馏工作流,启发本次微调。
相似文章
empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF
Empero AI 发布了 Qwythos-9B-Claude-Mythos-5-1M-GGUF,这是一个基于 5 亿以上 tokens 的 Claude Mythos/Fable 轨迹(包含思维链)微调而成的 9B 参数推理模型,相比 Qwen3.5-9B 取得了显著提升,并通过 YaRN 旋度缩放支持 100 万 token 上下文。GGUF 量化版本支持在 llama.cpp 及兼容运行时上进行本地推理。
DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF
DavidAU 发布了一款基于 Qwen 3.6 的自定义 40B 参数模型,该模型经过扩展并使用 Claude 4.6 Opus 蒸馏和 Deckard 数据集进行微调,具有优化的 GGUF 量化,以提升精度和无审查能力。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
Jackrong 发布了 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,这是一个经过微调的 27B 参数模型,具有改进的推理能力和稳定性,并在 GitHub 上提供了使用 Unsloth 框架的全面训练指南和代码。
Jackrong/Qwopus3.6-27B-v2-GGUF
Qwopus3.6-27B-v2是Qwen3.6-27B的推理增强微调版本,使用Trace Inversion数据集和课程学习,以GGUF格式发布以实现高效推理。
mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-MTP-GGUF 刚刚发布!
Mudler 发布了 Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled 模型的 APEX-MTP GGUF 量化版本,将多 token 预测头捆绑在一起,用于与 llama.cpp 的自推测解码。