DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

Hugging Face Models Trending 2026/04/29 02:37 模型

qwen fine-tuning uncensored gguf quantization open-source local-llm

摘要

基于 Qwen 3.6 27B 模型的社区微调去审查版本，提供高精度 GGUF 量化。

任务：image-text-to-text 标签：transformers, gguf, unsloth, heretic, uncensored, abliterated, fine tune, creative, creative writing, fiction writing, plot generation, sub-plot generation, story generation, scene continue, storytelling, fiction story, science fiction, romance, all genres, story, writing, vivid prosing, vivid writing, fiction, roleplaying, bfloat16, all use cases, image-text-to-text, en, zh, base_model:DavidAU/Qwen3.6-27B-Heretic2-Uncensored-Finetune-Thinking, base_model:quantized:DavidAU/Qwen3.6-27B-Heretic2-Uncensored-Finetune-Thinking, license:apache-2.0, endpoints_compatible, region:us, imatrix, conversational

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:05

DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF · Hugging Face 来源：https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF 极致：超越 Qwen 3.6 27B 性能，无审查且采用 NEO-Di-Matrix 量化，将全部能力浓缩为量化版本。Q4/IQ4 达到全精度（BF16）的 94%，Q6 接近 98%。即便 IQ2_M 也能达到 BF16 的 83%。每个量化版本 5 项指标，外加基准测试。

Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

Qwen 团队这款全新的 Qwen 3.6 27B 模型超出了所有预期【甚至超越了他们自家的 398B 模型】，也超越了 GEMMA 4 系列，因此这里提供了与之匹配的平衡型与精度型量化版本。并且支持 256K 上下文。查看下方 Qwen 团队 3.6 27B 的详细数据。现在：自由（无审查），通过 Unsloth 在自定义数据集上微调，获得比 Qwen 3.6 27B 更强的模型，以及采用 NEO/Code Di-Matrix 的极致 GGUF 量化性能。

详情：

Heretic 化与去审查：Qwen 3.6 27B 的“ nanny “已被“驱逐”。
Heretic 化后通过 Unsloth 微调，现在该模型超越了原版 Qwen 3.6 27B（有审查）的性能。
NEO/NEO Code Di-matrix GGUF 性能；Q4K_S 达到 BF16/全精度性能的 94%。

纯粹的自由（Heretic 数据）：

指标	本模型	原版模型 (Qwen/Qwen3.6-27B)
KL 散度	0.0469	0（按定义）
拒绝率	4/100	99/100

KLD：低于 0.3 就很好，比这更低则优秀。这是衡量“Heretic“版本与“原版模型“差异程度的指标。

比 Qwen 3.6 27B 更强： 低层级微调（Heretic 化之后），略微提升模型的核心能力，不想破坏“Qwen 魔法“：

内部基准测试 [by Nightmedia]: arc-c arc/e boolq hswag obkqa piqa wino
Qwen3.6-27B-Heretic2-Uncensored-Finetune-Thinking mxfp8 0.673,0.846,0.905... [指令模式]

基准未调优模型: Qwen3.6-27B (by Qwen) [指令模式] mxfp8 0.647,0.803,0.910,0.773,0.450,0.806,0.742

注意：指令模式通常比“思考“模式测试分数更高，原因是思考模式消耗 token 且受上下文限制。

NEO-CODE-Di-IMatrix-MAX-GGUF 量化版本： 量化“工程“侧重于平衡与精度，而非原始性能（后者在某些情况下似乎会导致模型/量化不稳定）。换句话说，基准测试/统计数据决定了最佳量化方案，而非猜测或一刀切的方法。这样做是为了确保长上下文、长/多轮对话、编程和数学等尽可能接近全精度模型，以及 one-shot 和标准提示/问题解决。

使用了两个 Imatrix 数据集来完成这项工作：首先分别获取两者的“原始数据“，然后合并以获得两个 imatrix 的精华，再用这个合并后的数据集制作 “NEO-CODE-Di-IMatrix-MAX” 量化版本。还进行了额外的张量调整，这些调整同样经过测量（基准测试）和优化。

IQ2_M：BF16/全精度模型 83% 的准确率，仅占原版模型大小的 20%。
Q4K_S：BF16/全精度模型 94% 的准确率，仅占原版模型大小的 25%。

[详见下方完整图表，所有量化版本及与非 Heretic 版本的对比]

GGUF 强化： 一款全面更强、更高效的 GGUF，适用于所有场景。达到 Unsloth 品质，并在某些指标上超越它（见下方）。

详情：

DI-MATRIX（双 imatrix）：NEO 和 NEO-CODE imatrix 数据集（by DavidAU）。
所有 Unsloth 张量增强 + 通过指标测试校准的额外增强。
每个量化版本均针对 BF16/全精度模型进行基准测试。
特殊 Q8_0 量化版本，含 BF16 组件。Imatrix 对 Q8/BF16 张量无影响。

视觉能力：

视觉（图像）已测试。
您也需要下载一个“mmproj“ 文件，放在 GGUF 同一文件夹下以支持图像功能。

Qwen 模型设置（建议）：

通用任务思考模式：temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
精确编程任务思考模式（如 WebDev）：temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
指令（或非思考）模式：temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
上下文窗口最低 8K 到 16K。

完整数据，各量化版本及与“非 Heretic“版本的对比：

下表展示了 Heretic-微调版（本仓库）的所有量化版本，并与非 Heretic 的 NEO-CODE-Dimatrix 量化版本进行了对比（方括号“[]“中的数字）。

非 Heretic 量化版本在此：https://huggingface.co/DavidAU/Qwen3.6-27B-NEO-CODE-Di-IMatrix-MAX-GGUF

指标	IQ2_M	IQ3_M	IQ4_XS	IQ4_NL	IQ4_K_S	Q4_K_M	Q5_K_S	Q5_K_M	Q6_K	Q8_0
Same Top P (%)	82.82% [82.66%]	89.76% [89.63%]	94.14% [93.98%]	94.19% [94.04%]	94.06% [93.90%]	94.51% [94.33%]	95.89% [95.84%]	96.11% [96.09%]	97.41% [97.34%]	98.47% [98.38%]
Mean KLD	0.1556 [0.1840]	0.0569 [0.0749]	0.0172 [0.0261]	0.0169 [0.0260]	0.0174 [0.0267]	0.0147 [0.0242]	0.0080 [0.0142]	0.0069 [0.0132]	0.0024 [0.0056]	0.0013 [0.0034]
99.9% KLD	4.48 [7.22]	1.77 [4.88]	0.66 [2.18]	0.65 [2.36]	0.71 [2.34]	0.58 [2.62]	0.36 [1.69]	0.29 [1.58]	0.09 [0.50]	0.05 [0.20]
RMS Δp (%)	11.65% [12.52%]	6.94% [7.69%]	3.70% [4.34%]	3.65% [4.36%]	3.76% [4.41%]	3.46% [4.13%]	2.52% [3.22%]	2.32% [3.019%]	1.43% [1.988%]	1.08% [1.538%]
Mean PPL (Q)	7.549 [7.746]	6.979 [7.222]	6.769 [6.977]	6.748 [6.971]	6.757 [6.948]	6.737 [6.946]	6.684 (!) [(!) 6.894]	6.678 (!) [(!) 6.885]	6.685 (!) [6.924]	6.695 [6.914]

注意：

除了 “Same Top P (%)”（与全精度的匹配程度）外，其他所有指标越低越好。
[] 中的数字为非 Heretic 量化版本。
“Mean PPL (Q)” 中的 “(!)” 表示低于 BF16/全精度（6.900）；Heretic 版本的 BF16/全精度为 6.688。
Q8_0 包含 BF16 组件，不受 IMATRIX 影响。这是极致性能量化版本。下方也提供了该量化版本的详细指标分解。
Q2s/Q3s 未列出，因为 IQ2/3 更快、更小，且质量相同或略优。
查看这些指标如何生成，请参见下方 “补充：Q6_K、Q8_0 极致性能详细指标”。

量化指标入门指南

量化压缩大语言模型，使其运行更快、硬件要求更低。要知道模型压缩后是否仍然“聪明“，我们使用以下五项关键指标：

1. Same Top P (%)

是什么： 压缩模型与原始未压缩模型相比，选择完全相同的首个词的概率。

通俗说： 这是“逐字准确率“。如果是 94%，意味着在 100 个案例中，有 94 个模型的首选词与原版一致。目标：越高越好（93% 或以上接近完美）。

2. Mean KLD（KL 散度）

是什么： 衡量模型“逻辑“或“思维过程“漂移了多少。它查看所有可能的下一个词的概率，而不仅仅是最高概率的那个。

通俗说： 这是“推理损失“。衡量模型在压缩过程中内部“大脑“的变化程度。目标：越低越好（低于 0.03 为优秀）。

3. 99.9% KLD（稳定性）

是什么： 聚焦于“最差“的 0.1% token——测试过程中遇到的最困难的边缘情况。

通俗说： 这是“可靠性分数“。告诉你当对话变得复杂时，模型是否容易出现“故障“或产生乱码。目标：越低越好（数值越低表示模型越稳定）。

4. RMS Δp (%)

是什么： 模型置信度的平均变化。

通俗说： 这是“置信度对齐“。即使模型选对了词，它的确定程度是否与原版一样？数值高意味着模型感到“紧张“或犹豫。目标：越低越好（理想接近 4%）。

5. Mean PPL（困惑度）

是什么： 衡量模型对它正在阅读的文本有多“惊讶“。

通俗说： 这是“流畅度“。如果困惑度显著上升，模型的输出会感觉不自然、更机械或重复。目标：越低越好（应尽可能接近基础模型）。

快速对比速查表

指标	理想趋势	衡量内容
Same Top P	⬆ 更高	准确率与选词
Mean KLD	⬇ 更低	逻辑漂移
99.9% KLD	⬇ 更低	稳定性与可靠性
RMS Δp	⬇ 更低	置信度与确定性
Mean PPL	⬇ 更低	流畅度与自然度

补充：Q6_K、Q8_0 极致性能详细指标

所有量化版本都有此报告。Q6_K 和 Q8_0 — 极致性能，含 BF16 组件。

报告生成方式：

从 BF16 GGUF 生成 LOGICS.DAT 文件：./perplexity -m w:/main.gguf -f wiki.test.raw --kl-divergence-base logits.dat
生成量化版本：./llama-quantize ...
测试量化版本：./llama-perplexity -m Q6_K.gguf -f wiki.test.raw --kl-divergence-base logits.dat --kl-divergence

“wiki.test.raw” 是困惑度测试的标准，包含 580 个测试块/每个量化版本 580 次测试。

Q6_K

====== Perplexity statistics ======
Mean PPL(Q) : 6.685104 ± 0.042129
Mean PPL(base) : 6.687935 ± 0.042136
Cor(ln(PPL(Q)), ln(PPL(base))): 99.93%
Mean ln(PPL(Q)/PPL(base)) : -0.000423 ± 0.000227
Mean PPL(Q)/PPL(base) : 0.999577 ± 0.000227
Mean PPL(Q)-PPL(base) : -0.002832 ± 0.001520

====== KL divergence statistics ======
Mean KLD: 0.002458 ± 0.000147
Maximum KLD: 13.136569
99.9% KLD: 0.093266
99.0% KLD: 0.017381
95.0% KLD: 0.005969
90.0% KLD: 0.003742
Median KLD: 0.000984
10.0% KLD: 0.000019
5.0% KLD: 0.000004
1.0% KLD: -0.000001
0.1% KLD: -0.000010
Minimum KLD: -0.000086

====== Token probability statistics ======
Mean Δp: -0.011 ± 0.004 %
Maximum Δp: 99.656%
99.9% Δp: 9.144%
99.0% Δp: 3.501%
95.0% Δp: 1.674%
90.0% Δp: 0.990%
75.0% Δp: 0.214%
Median Δp: 0.000%
25.0% Δp: -0.232%
10.0% Δp: -1.040%
5.0% Δp: -1.728%
1.0% Δp: -3.579%
0.1% Δp: -9.776%
Minimum Δp: -76.380%
RMS Δp : 1.433 ± 0.048 %
Same top p: 97.408 ± 0.041 %

Q8_0

====== Perplexity statistics ======
Mean PPL(Q) : 6.695419 ± 0.042239
Mean PPL(base) : 6.687935 ± 0.042136
Cor(ln(PPL(Q)), ln(PPL(base))): 99.96%
Mean ln(PPL(Q)/PPL(base)) : 0.001118 ± 0.000174
Mean PPL(Q)/PPL(base) : 1.001119 ± 0.000175
Mean PPL(Q)-PPL(base) : 0.007484 ± 0.001171

====== KL divergence statistics ======
Mean KLD: 0.001326 ± 0.000074
Maximum KLD: 7.088220
99.9% KLD: 0.048507
99.0% KLD: 0.007663
95.0% KLD: 0.002989
90.0% KLD: 0.002106
Median KLD: 0.000536
10.0% KLD: 0.000006
5.0% KLD: 0.000001
1.0% KLD: -0.000002
0.1% KLD: -0.000013
Minimum KLD: -0.000070

====== Token probability statistics ======
Mean Δp: -0.015 ± 0.003 %
Maximum Δp: 58.314%
99.9% Δp: 5.862%
99.0% Δp: 2.932%
95.0% Δp: 1.436%
90.0% Δp: 0.657%
75.0% Δp: 0.095%
Median Δp: 0.000%
25.0% Δp: -0.086%
10.0% Δp: -0.718%
5.0% Δp: -1.621%
1.0% Δp: -3.037%
0.1% Δp: -6.171%
Minimum Δp: -59.254%
RMS Δp : 1.082 ± 0.027 %
Same top p: 98.474 ± 0.032 %

Qwen 官方模型信息

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#qwen36-27b

Qwen3.6-27B

Qwen Chat (https://chat.qwen.ai/)

本仓库包含 Hugging Face Transformers 格式的后训练模型权重和配置文件。这些产物兼容 Hugging Face Transformers、vLLM、SGLang、KTransformers 等。

继今年二月 Qwen3.5 系列发布之后，我们很高兴分享 Qwen3.6 的首个开源权重版本。基于社区的直接反馈构建，Qwen3.6 优先考虑稳定性和实际效用，为开发者提供更直观、响应更迅速、真正高效的编程体验。

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#qwen36-highlights

Qwen3.6 亮点

本次发布带来了重大升级，特别是在：

Agentic Coding： 模型现在以更流畅、更精确的方式处理前端工作流和仓库级推理。
思考保留： 我们引入了新的选项，可以保留历史消息中的推理上下文，简化迭代开发并减少开销。

基准测试结果 (https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3.6/Figures/qwen3.6_27b_score.png)

更多详情请参阅我们的博客文章 Qwen3.6-27B。

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#model-overview

模型概览

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练
语言模型
- 参数量：27B
- 隐藏维度：5120
- Token 嵌入：248320（填充后）
- 层数：64
- 隐藏层结构：16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
- Gated DeltaNet：
  - 线性注意力头数：V 为 48，QK 为 16
  - 头维度：128
- Gated Attention：
  - 注意力头数：Q 为 24，KV 为 4
  - 头维度：256
  - 旋转位置编码维度：64
- 前馈网络：
  - 中间维度：17408
- LM 输出：248320（填充后）
- MTP：多步训练
上下文长度：原生 262,144，可扩展至 1,010,000 token。

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#benchmark-results

基准测试结果

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#language

	Qwen3.5-27B	Qwen3.5-397B-A17B	Gemma4-31B	Claude 4.5 Opus	Qwen3.6-35B-A3B	Qwen3.6-27B
Coding Agent
SWE-bench Verified	75.0	76.2	52.0	80.9	73.4	77.2
SWE-bench Pro	51.2	50.9	35.7	57.1	49.5	53.5
SWE-bench Multilingual	69.3	69.3	51.7	77.5	67.2	71.3
Terminal-Bench 2.0	41.6	52.5	42.9	59.3	51.5	59.3
SkillsBench	Avg 52	7.2	30.0	23.6	45.3	28.7
QwenWebBench	1068	1186	1197	1536	1397	1487
NL2Repo	27.3	32.2	15.5	43.2	29.4	36.2
Claw-Eval	Avg 64.3	70.7	48.5	76.6	68.7	72.4
Claw-Eval	Pass^3 46.2	48.1	25.0	59.6	50.0	60.6
QwenClawBench	52.2	51.8	41.7	52.3	52.6	53.4
Knowledge
MMLU-Pro	86.1	87.8	85.2	89.5	85.2	86.2
MMLU-Redux	93.2	94.9	93.7	95.6	93.3	93.5
SuperGPQA	65.6	70.4	65.7	70.6	64.7	66.0
C-Eval	90.5	93.0	82.6	92.2	90.0	91.4
STEM & Reasoning
GPQA Diamond	85.5	88.4	84.3	87.0	86.0	87.8
HLE	24.3	28.7	19.5	30.8	21.4	24.0
LiveCodeBench v6	80.7	83.6	80.0	84.8	80.4	83.9
HMMT Feb 25	92.0	94.8	88.7	92.9	90.7	93.8
HMMT Nov 25	89.8	92.7	87.5	93.3	89.1	90.7
HMMT Feb 26	84.3	87.9	77.2	85.3	83.6	84.3
IMO	AnswerBench 79.9	80.9	74.5	84.0	78.9	80.8
AIME26	92.6	93.3	89.2	95.1	92.7	94.1

* SWE-Bench 系列：内部 agent 脚手架（bash + file-edit 工具）；temp=1.0, top_p=0.95, 200K 上下文窗口。我们修正了 SWE-bench Pro 公开集中的一些问题任务，并在优化后的基准上评估所有基线。

* Terminal-Bench 2.0：Harbor/Terminus-2 框架；3小时超时，32 CPU/48 GB RAM；temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K ctx；5 次运行平均。

* SkillsBench：通过 OpenCode 在 78 个任务上评估（自包含子集，排除 API 依赖任务）；5 次运行平均。

* NL2Repo：其他通过 Claude Code 评估（temp=1.0, top_p=0.95, max_turns=900）。

* QwenClawBench：真实用户分布的 Claw agent 基准；temp=0.6, 256K ctx。

* QwenWebBench：内部前端代码生成基准；中英双语，7 个类别（网页设计、Web 应用、游戏、SVG、数据可视化、动画和 3D）；自动渲染 + 多模态评判（代码/视觉正确性）。

DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

量化指标入门指南

1. Same Top P (%)

2. Mean KLD（KL 散度）

3. 99.9% KLD（稳定性）

4. RMS Δp (%)

5. Mean PPL（困惑度）

快速对比速查表

补充：Q6_K、Q8_0 极致性能详细指标

Qwen 官方模型信息

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#qwen36-27b

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#qwen36-highlights

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#model-overview

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#benchmark-results

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#language

相似文章

DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF

Qwen3.6-35B-A3B-Uncensored-Genesis-APEX-MTP

@Ex0byt: 各位，这是 Qwen3.6-27B-PRISM-PRO-DQ - 敬请享用！

HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

Qwen 3.6 27B AutoRound GGUF，需要您的反馈

提交意见反馈