DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF
摘要
基于 Qwen 3.6 27B 模型的社区微调去审查版本,提供高精度 GGUF 量化。
查看缓存全文
缓存时间: 2026/05/08 09:05
DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF · Hugging Face 来源:https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF 极致:超越 Qwen 3.6 27B 性能,无审查且采用 NEO-Di-Matrix 量化,将全部能力浓缩为量化版本。Q4/IQ4 达到全精度(BF16)的 94%,Q6 接近 98%。即便 IQ2_M 也能达到 BF16 的 83%。每个量化版本 5 项指标,外加基准测试。
Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF
Qwen 团队这款全新的 Qwen 3.6 27B 模型超出了所有预期【甚至超越了他们自家的 398B 模型】,也超越了 GEMMA 4 系列,因此这里提供了与之匹配的平衡型与精度型量化版本。并且支持 256K 上下文。查看下方 Qwen 团队 3.6 27B 的详细数据。现在:自由(无审查),通过 Unsloth 在自定义数据集上微调,获得比 Qwen 3.6 27B 更强的模型,以及采用 NEO/Code Di-Matrix 的极致 GGUF 量化性能。
详情:
- Heretic 化与去审查:Qwen 3.6 27B 的“ nanny “已被“驱逐”。
- Heretic 化后通过 Unsloth 微调,现在该模型超越了原版 Qwen 3.6 27B(有审查)的性能。
- NEO/NEO Code Di-matrix GGUF 性能;Q4K_S 达到 BF16/全精度性能的 94%。
纯粹的自由(Heretic 数据):
| 指标 | 本模型 | 原版模型 (Qwen/Qwen3.6-27B) |
|---|---|---|
| KL 散度 | 0.0469 | 0(按定义) |
| 拒绝率 | 4/100 | 99/100 |
KLD:低于 0.3 就很好,比这更低则优秀。这是衡量“Heretic“版本与“原版模型“差异程度的指标。
比 Qwen 3.6 27B 更强: 低层级微调(Heretic 化之后),略微提升模型的核心能力,不想破坏“Qwen 魔法“:
内部基准测试 [by Nightmedia]: arc-c arc/e boolq hswag obkqa piqa wino
Qwen3.6-27B-Heretic2-Uncensored-Finetune-Thinking mxfp8 0.673,0.846,0.905... [指令模式]
基准未调优模型: Qwen3.6-27B (by Qwen) [指令模式] mxfp8 0.647,0.803,0.910,0.773,0.450,0.806,0.742
注意:指令模式通常比“思考“模式测试分数更高,原因是思考模式消耗 token 且受上下文限制。
NEO-CODE-Di-IMatrix-MAX-GGUF 量化版本: 量化“工程“侧重于平衡与精度,而非原始性能(后者在某些情况下似乎会导致模型/量化不稳定)。换句话说,基准测试/统计数据决定了最佳量化方案,而非猜测或一刀切的方法。这样做是为了确保长上下文、长/多轮对话、编程和数学等尽可能接近全精度模型,以及 one-shot 和标准提示/问题解决。
使用了两个 Imatrix 数据集来完成这项工作:首先分别获取两者的“原始数据“,然后合并以获得两个 imatrix 的精华,再用这个合并后的数据集制作 “NEO-CODE-Di-IMatrix-MAX” 量化版本。还进行了额外的张量调整,这些调整同样经过测量(基准测试)和优化。
- IQ2_M:BF16/全精度模型 83% 的准确率,仅占原版模型大小的 20%。
- Q4K_S:BF16/全精度模型 94% 的准确率,仅占原版模型大小的 25%。
[详见下方完整图表,所有量化版本及与非 Heretic 版本的对比]
GGUF 强化: 一款全面更强、更高效的 GGUF,适用于所有场景。达到 Unsloth 品质,并在某些指标上超越它(见下方)。
详情:
- DI-MATRIX(双 imatrix):NEO 和 NEO-CODE imatrix 数据集(by DavidAU)。
- 所有 Unsloth 张量增强 + 通过指标测试校准的额外增强。
- 每个量化版本均针对 BF16/全精度模型进行基准测试。
- 特殊 Q8_0 量化版本,含 BF16 组件。Imatrix 对 Q8/BF16 张量无影响。
视觉能力:
- 视觉(图像)已测试。
- 您也需要下载一个“mmproj“ 文件,放在 GGUF 同一文件夹下以支持图像功能。
Qwen 模型设置(建议):
- 通用任务思考模式:temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
- 精确编程任务思考模式(如 WebDev):temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
- 指令(或非思考)模式:temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
- 上下文窗口最低 8K 到 16K。
完整数据,各量化版本及与“非 Heretic“版本的对比:
下表展示了 Heretic-微调版(本仓库)的所有量化版本,并与非 Heretic 的 NEO-CODE-Dimatrix 量化版本进行了对比(方括号“[]“中的数字)。
非 Heretic 量化版本在此:https://huggingface.co/DavidAU/Qwen3.6-27B-NEO-CODE-Di-IMatrix-MAX-GGUF
| 指标 | IQ2_M | IQ3_M | IQ4_XS | IQ4_NL | IQ4_K_S | Q4_K_M | Q5_K_S | Q5_K_M | Q6_K | Q8_0 |
|---|---|---|---|---|---|---|---|---|---|---|
| Same Top P (%) | 82.82% [82.66%] | 89.76% [89.63%] | 94.14% [93.98%] | 94.19% [94.04%] | 94.06% [93.90%] | 94.51% [94.33%] | 95.89% [95.84%] | 96.11% [96.09%] | 97.41% [97.34%] | 98.47% [98.38%] |
| Mean KLD | 0.1556 [0.1840] | 0.0569 [0.0749] | 0.0172 [0.0261] | 0.0169 [0.0260] | 0.0174 [0.0267] | 0.0147 [0.0242] | 0.0080 [0.0142] | 0.0069 [0.0132] | 0.0024 [0.0056] | 0.0013 [0.0034] |
| 99.9% KLD | 4.48 [7.22] | 1.77 [4.88] | 0.66 [2.18] | 0.65 [2.36] | 0.71 [2.34] | 0.58 [2.62] | 0.36 [1.69] | 0.29 [1.58] | 0.09 [0.50] | 0.05 [0.20] |
| RMS Δp (%) | 11.65% [12.52%] | 6.94% [7.69%] | 3.70% [4.34%] | 3.65% [4.36%] | 3.76% [4.41%] | 3.46% [4.13%] | 2.52% [3.22%] | 2.32% [3.019%] | 1.43% [1.988%] | 1.08% [1.538%] |
| Mean PPL (Q) | 7.549 [7.746] | 6.979 [7.222] | 6.769 [6.977] | 6.748 [6.971] | 6.757 [6.948] | 6.737 [6.946] | 6.684 (!) [(!) 6.894] | 6.678 (!) [(!) 6.885] | 6.685 (!) [6.924] | 6.695 [6.914] |
注意:
- 除了 “Same Top P (%)”(与全精度的匹配程度)外,其他所有指标越低越好。
- [] 中的数字为非 Heretic 量化版本。
- “Mean PPL (Q)” 中的 “(!)” 表示低于 BF16/全精度(6.900);Heretic 版本的 BF16/全精度为 6.688。
- Q8_0 包含 BF16 组件,不受 IMATRIX 影响。这是极致性能量化版本。下方也提供了该量化版本的详细指标分解。
- Q2s/Q3s 未列出,因为 IQ2/3 更快、更小,且质量相同或略优。
- 查看这些指标如何生成,请参见下方 “补充:Q6_K、Q8_0 极致性能详细指标”。
量化指标入门指南
量化压缩大语言模型,使其运行更快、硬件要求更低。要知道模型压缩后是否仍然“聪明“,我们使用以下五项关键指标:
1. Same Top P (%)
是什么: 压缩模型与原始未压缩模型相比,选择完全相同的首个词的概率。
通俗说: 这是“逐字准确率“。如果是 94%,意味着在 100 个案例中,有 94 个模型的首选词与原版一致。目标:越高越好(93% 或以上接近完美)。
2. Mean KLD(KL 散度)
是什么: 衡量模型“逻辑“或“思维过程“漂移了多少。它查看所有可能的下一个词的概率,而不仅仅是最高概率的那个。
通俗说: 这是“推理损失“。衡量模型在压缩过程中内部“大脑“的变化程度。目标:越低越好(低于 0.03 为优秀)。
3. 99.9% KLD(稳定性)
是什么: 聚焦于“最差“的 0.1% token——测试过程中遇到的最困难的边缘情况。
通俗说: 这是“可靠性分数“。告诉你当对话变得复杂时,模型是否容易出现“故障“或产生乱码。目标:越低越好(数值越低表示模型越稳定)。
4. RMS Δp (%)
是什么: 模型置信度的平均变化。
通俗说: 这是“置信度对齐“。即使模型选对了词,它的确定程度是否与原版一样?数值高意味着模型感到“紧张“或犹豫。目标:越低越好(理想接近 4%)。
5. Mean PPL(困惑度)
是什么: 衡量模型对它正在阅读的文本有多“惊讶“。
通俗说: 这是“流畅度“。如果困惑度显著上升,模型的输出会感觉不自然、更机械或重复。目标:越低越好(应尽可能接近基础模型)。
快速对比速查表
| 指标 | 理想趋势 | 衡量内容 |
|---|---|---|
| Same Top P | ⬆ 更高 | 准确率与选词 |
| Mean KLD | ⬇ 更低 | 逻辑漂移 |
| 99.9% KLD | ⬇ 更低 | 稳定性与可靠性 |
| RMS Δp | ⬇ 更低 | 置信度与确定性 |
| Mean PPL | ⬇ 更低 | 流畅度与自然度 |
补充:Q6_K、Q8_0 极致性能详细指标
所有量化版本都有此报告。Q6_K 和 Q8_0 — 极致性能,含 BF16 组件。
报告生成方式:
- 从 BF16 GGUF 生成 LOGICS.DAT 文件:
./perplexity -m w:/main.gguf -f wiki.test.raw --kl-divergence-base logits.dat - 生成量化版本:
./llama-quantize ... - 测试量化版本:
./llama-perplexity -m Q6_K.gguf -f wiki.test.raw --kl-divergence-base logits.dat --kl-divergence
“wiki.test.raw” 是困惑度测试的标准,包含 580 个测试块/每个量化版本 580 次测试。
Q6_K
====== Perplexity statistics ======
Mean PPL(Q) : 6.685104 ± 0.042129
Mean PPL(base) : 6.687935 ± 0.042136
Cor(ln(PPL(Q)), ln(PPL(base))): 99.93%
Mean ln(PPL(Q)/PPL(base)) : -0.000423 ± 0.000227
Mean PPL(Q)/PPL(base) : 0.999577 ± 0.000227
Mean PPL(Q)-PPL(base) : -0.002832 ± 0.001520
====== KL divergence statistics ======
Mean KLD: 0.002458 ± 0.000147
Maximum KLD: 13.136569
99.9% KLD: 0.093266
99.0% KLD: 0.017381
95.0% KLD: 0.005969
90.0% KLD: 0.003742
Median KLD: 0.000984
10.0% KLD: 0.000019
5.0% KLD: 0.000004
1.0% KLD: -0.000001
0.1% KLD: -0.000010
Minimum KLD: -0.000086
====== Token probability statistics ======
Mean Δp: -0.011 ± 0.004 %
Maximum Δp: 99.656%
99.9% Δp: 9.144%
99.0% Δp: 3.501%
95.0% Δp: 1.674%
90.0% Δp: 0.990%
75.0% Δp: 0.214%
Median Δp: 0.000%
25.0% Δp: -0.232%
10.0% Δp: -1.040%
5.0% Δp: -1.728%
1.0% Δp: -3.579%
0.1% Δp: -9.776%
Minimum Δp: -76.380%
RMS Δp : 1.433 ± 0.048 %
Same top p: 97.408 ± 0.041 %
Q8_0
====== Perplexity statistics ======
Mean PPL(Q) : 6.695419 ± 0.042239
Mean PPL(base) : 6.687935 ± 0.042136
Cor(ln(PPL(Q)), ln(PPL(base))): 99.96%
Mean ln(PPL(Q)/PPL(base)) : 0.001118 ± 0.000174
Mean PPL(Q)/PPL(base) : 1.001119 ± 0.000175
Mean PPL(Q)-PPL(base) : 0.007484 ± 0.001171
====== KL divergence statistics ======
Mean KLD: 0.001326 ± 0.000074
Maximum KLD: 7.088220
99.9% KLD: 0.048507
99.0% KLD: 0.007663
95.0% KLD: 0.002989
90.0% KLD: 0.002106
Median KLD: 0.000536
10.0% KLD: 0.000006
5.0% KLD: 0.000001
1.0% KLD: -0.000002
0.1% KLD: -0.000013
Minimum KLD: -0.000070
====== Token probability statistics ======
Mean Δp: -0.015 ± 0.003 %
Maximum Δp: 58.314%
99.9% Δp: 5.862%
99.0% Δp: 2.932%
95.0% Δp: 1.436%
90.0% Δp: 0.657%
75.0% Δp: 0.095%
Median Δp: 0.000%
25.0% Δp: -0.086%
10.0% Δp: -0.718%
5.0% Δp: -1.621%
1.0% Δp: -3.037%
0.1% Δp: -6.171%
Minimum Δp: -59.254%
RMS Δp : 1.082 ± 0.027 %
Same top p: 98.474 ± 0.032 %
Qwen 官方模型信息
https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#qwen36-27b
Qwen3.6-27B
Qwen Chat (https://chat.qwen.ai/)
本仓库包含 Hugging Face Transformers 格式的后训练模型权重和配置文件。这些产物兼容 Hugging Face Transformers、vLLM、SGLang、KTransformers 等。
继今年二月 Qwen3.5 系列发布之后,我们很高兴分享 Qwen3.6 的首个开源权重版本。基于社区的直接反馈构建,Qwen3.6 优先考虑稳定性和实际效用,为开发者提供更直观、响应更迅速、真正高效的编程体验。
https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#qwen36-highlights
Qwen3.6 亮点
本次发布带来了重大升级,特别是在:
- Agentic Coding: 模型现在以更流畅、更精确的方式处理前端工作流和仓库级推理。
- 思考保留: 我们引入了新的选项,可以保留历史消息中的推理上下文,简化迭代开发并减少开销。
基准测试结果 (https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3.6/Figures/qwen3.6_27b_score.png)
更多详情请参阅我们的博客文章 Qwen3.6-27B。
https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#model-overview
模型概览
- 类型:带视觉编码器的因果语言模型
- 训练阶段:预训练与后训练
- 语言模型
- 参数量:27B
- 隐藏维度:5120
- Token 嵌入:248320(填充后)
- 层数:64
- 隐藏层结构:16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
- Gated DeltaNet:
- 线性注意力头数:V 为 48,QK 为 16
- 头维度:128
- Gated Attention:
- 注意力头数:Q 为 24,KV 为 4
- 头维度:256
- 旋转位置编码维度:64
- 前馈网络:
- 中间维度:17408
- LM 输出:248320(填充后)
- MTP:多步训练
- 上下文长度:原生 262,144,可扩展至 1,010,000 token。
https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#benchmark-results
基准测试结果
https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#language
| Qwen3.5-27B | Qwen3.5-397B-A17B | Gemma4-31B | Claude 4.5 Opus | Qwen3.6-35B-A3B | Qwen3.6-27B | |
|---|---|---|---|---|---|---|
| Coding Agent | ||||||
| SWE-bench Verified | 75.0 | 76.2 | 52.0 | 80.9 | 73.4 | 77.2 |
| SWE-bench Pro | 51.2 | 50.9 | 35.7 | 57.1 | 49.5 | 53.5 |
| SWE-bench Multilingual | 69.3 | 69.3 | 51.7 | 77.5 | 67.2 | 71.3 |
| Terminal-Bench 2.0 | 41.6 | 52.5 | 42.9 | 59.3 | 51.5 | 59.3 |
| SkillsBench | Avg 52 | 7.2 | 30.0 | 23.6 | 45.3 | 28.7 |
| QwenWebBench | 1068 | 1186 | 1197 | 1536 | 1397 | 1487 |
| NL2Repo | 27.3 | 32.2 | 15.5 | 43.2 | 29.4 | 36.2 |
| Claw-Eval | Avg 64.3 | 70.7 | 48.5 | 76.6 | 68.7 | 72.4 |
| Claw-Eval | Pass^3 46.2 | 48.1 | 25.0 | 59.6 | 50.0 | 60.6 |
| QwenClawBench | 52.2 | 51.8 | 41.7 | 52.3 | 52.6 | 53.4 |
| Knowledge | ||||||
| MMLU-Pro | 86.1 | 87.8 | 85.2 | 89.5 | 85.2 | 86.2 |
| MMLU-Redux | 93.2 | 94.9 | 93.7 | 95.6 | 93.3 | 93.5 |
| SuperGPQA | 65.6 | 70.4 | 65.7 | 70.6 | 64.7 | 66.0 |
| C-Eval | 90.5 | 93.0 | 82.6 | 92.2 | 90.0 | 91.4 |
| STEM & Reasoning | ||||||
| GPQA Diamond | 85.5 | 88.4 | 84.3 | 87.0 | 86.0 | 87.8 |
| HLE | 24.3 | 28.7 | 19.5 | 30.8 | 21.4 | 24.0 |
| LiveCodeBench v6 | 80.7 | 83.6 | 80.0 | 84.8 | 80.4 | 83.9 |
| HMMT Feb 25 | 92.0 | 94.8 | 88.7 | 92.9 | 90.7 | 93.8 |
| HMMT Nov 25 | 89.8 | 92.7 | 87.5 | 93.3 | 89.1 | 90.7 |
| HMMT Feb 26 | 84.3 | 87.9 | 77.2 | 85.3 | 83.6 | 84.3 |
| IMO | AnswerBench 79.9 | 80.9 | 74.5 | 84.0 | 78.9 | 80.8 |
| AIME26 | 92.6 | 93.3 | 89.2 | 95.1 | 92.7 | 94.1 |
* SWE-Bench 系列:内部 agent 脚手架(bash + file-edit 工具);temp=1.0, top_p=0.95, 200K 上下文窗口。我们修正了 SWE-bench Pro 公开集中的一些问题任务,并在优化后的基准上评估所有基线。
* Terminal-Bench 2.0:Harbor/Terminus-2 框架;3小时超时,32 CPU/48 GB RAM;temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K ctx;5 次运行平均。
* SkillsBench:通过 OpenCode 在 78 个任务上评估(自包含子集,排除 API 依赖任务);5 次运行平均。
* NL2Repo:其他通过 Claude Code 评估(temp=1.0, top_p=0.95, max_turns=900)。
* QwenClawBench:真实用户分布的 Claw agent 基准;temp=0.6, 256K ctx。
* QwenWebBench:内部前端代码生成基准;中英双语,7 个类别(网页设计、Web 应用、游戏、SVG、数据可视化、动画和 3D);自动渲染 + 多模态评判(代码/视觉正确性)。
相似文章
DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF
DavidAU 发布了一款基于 Qwen 3.6 的自定义 40B 参数模型,该模型经过扩展并使用 Claude 4.6 Opus 蒸馏和 Deckard 数据集进行微调,具有优化的 GGUF 量化,以提升精度和无审查能力。
Qwen3.6-35B-A3B-Uncensored-Genesis-APEX-MTP
Qwen模型(Qwen3.6-35B-A3B)的精调无审查版本,支持MTP和APEX量化,经测试在200k上下文下稳定运行,推荐在LM Studio中使用。
@Ex0byt: 各位,这是 Qwen3.6-27B-PRISM-PRO-DQ - 敬请享用!
发布了 Qwen3.6-27B-PRISM-PRO-DQ,这是 Qwen3.6-27B 的动态量化 GGUF 版本,去除了偏见/宣传内容,保留了原生 MTP 草稿头和视觉塔,支持无损推测解码以实现更快的推理。
HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive
在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型的无审查激进变体,采用自定义 K_P 量化并完全移除了安全拒绝机制。
Qwen 3.6 27B AutoRound GGUF,需要您的反馈
一位用户分享了他们使用AutoRound对Qwen 3.6 27B进行GGUF量化的版本,声称其性能优于其他量化版本,并邀请反馈。