DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

Hugging Face Models Trending 模型

摘要

基于 Qwen 3.6 27B 模型的社区微调去审查版本,提供高精度 GGUF 量化。

任务:image-text-to-text 标签:transformers, gguf, unsloth, heretic, uncensored, abliterated, fine tune, creative, creative writing, fiction writing, plot generation, sub-plot generation, story generation, scene continue, storytelling, fiction story, science fiction, romance, all genres, story, writing, vivid prosing, vivid writing, fiction, roleplaying, bfloat16, all use cases, image-text-to-text, en, zh, base_model:DavidAU/Qwen3.6-27B-Heretic2-Uncensored-Finetune-Thinking, base_model:quantized:DavidAU/Qwen3.6-27B-Heretic2-Uncensored-Finetune-Thinking, license:apache-2.0, endpoints_compatible, region:us, imatrix, conversational
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:05

DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF · Hugging Face 来源:https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF 极致:超越 Qwen 3.6 27B 性能,无审查且采用 NEO-Di-Matrix 量化,将全部能力浓缩为量化版本。Q4/IQ4 达到全精度(BF16)的 94%,Q6 接近 98%。即便 IQ2_M 也能达到 BF16 的 83%。每个量化版本 5 项指标,外加基准测试。

Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF

Qwen 团队这款全新的 Qwen 3.6 27B 模型超出了所有预期【甚至超越了他们自家的 398B 模型】,也超越了 GEMMA 4 系列,因此这里提供了与之匹配的平衡型与精度型量化版本。并且支持 256K 上下文。查看下方 Qwen 团队 3.6 27B 的详细数据。现在:自由(无审查),通过 Unsloth 在自定义数据集上微调,获得比 Qwen 3.6 27B 更强的模型,以及采用 NEO/Code Di-Matrix 的极致 GGUF 量化性能。

详情:

  • Heretic 化与去审查:Qwen 3.6 27B 的“ nanny “已被“驱逐”。
  • Heretic 化后通过 Unsloth 微调,现在该模型超越了原版 Qwen 3.6 27B(有审查)的性能。
  • NEO/NEO Code Di-matrix GGUF 性能;Q4K_S 达到 BF16/全精度性能的 94%。

纯粹的自由(Heretic 数据):

指标本模型原版模型 (Qwen/Qwen3.6-27B)
KL 散度0.04690(按定义)
拒绝率4/10099/100

KLD:低于 0.3 就很好,比这更低则优秀。这是衡量“Heretic“版本与“原版模型“差异程度的指标。

比 Qwen 3.6 27B 更强: 低层级微调(Heretic 化之后),略微提升模型的核心能力,不想破坏“Qwen 魔法“:

内部基准测试 [by Nightmedia]: arc-c arc/e boolq hswag obkqa piqa wino
Qwen3.6-27B-Heretic2-Uncensored-Finetune-Thinking mxfp8 0.673,0.846,0.905... [指令模式]

基准未调优模型: Qwen3.6-27B (by Qwen) [指令模式] mxfp8 0.647,0.803,0.910,0.773,0.450,0.806,0.742

注意:指令模式通常比“思考“模式测试分数更高,原因是思考模式消耗 token 且受上下文限制。

NEO-CODE-Di-IMatrix-MAX-GGUF 量化版本: 量化“工程“侧重于平衡与精度,而非原始性能(后者在某些情况下似乎会导致模型/量化不稳定)。换句话说,基准测试/统计数据决定了最佳量化方案,而非猜测或一刀切的方法。这样做是为了确保长上下文、长/多轮对话、编程和数学等尽可能接近全精度模型,以及 one-shot 和标准提示/问题解决。

使用了两个 Imatrix 数据集来完成这项工作:首先分别获取两者的“原始数据“,然后合并以获得两个 imatrix 的精华,再用这个合并后的数据集制作 “NEO-CODE-Di-IMatrix-MAX” 量化版本。还进行了额外的张量调整,这些调整同样经过测量(基准测试)和优化。

  • IQ2_M:BF16/全精度模型 83% 的准确率,仅占原版模型大小的 20%。
  • Q4K_S:BF16/全精度模型 94% 的准确率,仅占原版模型大小的 25%。

[详见下方完整图表,所有量化版本及与非 Heretic 版本的对比]

GGUF 强化: 一款全面更强、更高效的 GGUF,适用于所有场景。达到 Unsloth 品质,并在某些指标上超越它(见下方)。

详情:

  • DI-MATRIX(双 imatrix):NEO 和 NEO-CODE imatrix 数据集(by DavidAU)。
  • 所有 Unsloth 张量增强 + 通过指标测试校准的额外增强。
  • 每个量化版本均针对 BF16/全精度模型进行基准测试。
  • 特殊 Q8_0 量化版本,含 BF16 组件。Imatrix 对 Q8/BF16 张量无影响。

视觉能力:

  • 视觉(图像)已测试。
  • 您也需要下载一个“mmproj“ 文件,放在 GGUF 同一文件夹下以支持图像功能。

Qwen 模型设置(建议):

  • 通用任务思考模式:temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
  • 精确编程任务思考模式(如 WebDev):temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
  • 指令(或非思考)模式:temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
  • 上下文窗口最低 8K 到 16K。

完整数据,各量化版本及与“非 Heretic“版本的对比:

下表展示了 Heretic-微调版(本仓库)的所有量化版本,并与非 Heretic 的 NEO-CODE-Dimatrix 量化版本进行了对比(方括号“[]“中的数字)。

非 Heretic 量化版本在此:https://huggingface.co/DavidAU/Qwen3.6-27B-NEO-CODE-Di-IMatrix-MAX-GGUF

指标IQ2_MIQ3_MIQ4_XSIQ4_NLIQ4_K_SQ4_K_MQ5_K_SQ5_K_MQ6_KQ8_0
Same Top P (%)82.82% [82.66%]89.76% [89.63%]94.14% [93.98%]94.19% [94.04%]94.06% [93.90%]94.51% [94.33%]95.89% [95.84%]96.11% [96.09%]97.41% [97.34%]98.47% [98.38%]
Mean KLD0.1556 [0.1840]0.0569 [0.0749]0.0172 [0.0261]0.0169 [0.0260]0.0174 [0.0267]0.0147 [0.0242]0.0080 [0.0142]0.0069 [0.0132]0.0024 [0.0056]0.0013 [0.0034]
99.9% KLD4.48 [7.22]1.77 [4.88]0.66 [2.18]0.65 [2.36]0.71 [2.34]0.58 [2.62]0.36 [1.69]0.29 [1.58]0.09 [0.50]0.05 [0.20]
RMS Δp (%)11.65% [12.52%]6.94% [7.69%]3.70% [4.34%]3.65% [4.36%]3.76% [4.41%]3.46% [4.13%]2.52% [3.22%]2.32% [3.019%]1.43% [1.988%]1.08% [1.538%]
Mean PPL (Q)7.549 [7.746]6.979 [7.222]6.769 [6.977]6.748 [6.971]6.757 [6.948]6.737 [6.946]6.684 (!) [(!) 6.894]6.678 (!) [(!) 6.885]6.685 (!) [6.924]6.695 [6.914]

注意:

  • 除了 “Same Top P (%)”(与全精度的匹配程度)外,其他所有指标越低越好。
  • [] 中的数字为非 Heretic 量化版本。
  • “Mean PPL (Q)” 中的 “(!)” 表示低于 BF16/全精度(6.900);Heretic 版本的 BF16/全精度为 6.688。
  • Q8_0 包含 BF16 组件,不受 IMATRIX 影响。这是极致性能量化版本。下方也提供了该量化版本的详细指标分解。
  • Q2s/Q3s 未列出,因为 IQ2/3 更快、更小,且质量相同或略优。
  • 查看这些指标如何生成,请参见下方 “补充:Q6_K、Q8_0 极致性能详细指标”。

量化指标入门指南

量化压缩大语言模型,使其运行更快、硬件要求更低。要知道模型压缩后是否仍然“聪明“,我们使用以下五项关键指标:

1. Same Top P (%)

是什么: 压缩模型与原始未压缩模型相比,选择完全相同的首个词的概率。

通俗说: 这是“逐字准确率“。如果是 94%,意味着在 100 个案例中,有 94 个模型的首选词与原版一致。目标:越高越好(93% 或以上接近完美)。

2. Mean KLD(KL 散度)

是什么: 衡量模型“逻辑“或“思维过程“漂移了多少。它查看所有可能的下一个词的概率,而不仅仅是最高概率的那个。

通俗说: 这是“推理损失“。衡量模型在压缩过程中内部“大脑“的变化程度。目标:越低越好(低于 0.03 为优秀)。

3. 99.9% KLD(稳定性)

是什么: 聚焦于“最差“的 0.1% token——测试过程中遇到的最困难的边缘情况。

通俗说: 这是“可靠性分数“。告诉你当对话变得复杂时,模型是否容易出现“故障“或产生乱码。目标:越低越好(数值越低表示模型越稳定)。

4. RMS Δp (%)

是什么: 模型置信度的平均变化。

通俗说: 这是“置信度对齐“。即使模型选对了词,它的确定程度是否与原版一样?数值高意味着模型感到“紧张“或犹豫。目标:越低越好(理想接近 4%)。

5. Mean PPL(困惑度)

是什么: 衡量模型对它正在阅读的文本有多“惊讶“。

通俗说: 这是“流畅度“。如果困惑度显著上升,模型的输出会感觉不自然、更机械或重复。目标:越低越好(应尽可能接近基础模型)。

快速对比速查表

指标理想趋势衡量内容
Same Top P⬆ 更高准确率与选词
Mean KLD⬇ 更低逻辑漂移
99.9% KLD⬇ 更低稳定性与可靠性
RMS Δp⬇ 更低置信度与确定性
Mean PPL⬇ 更低流畅度与自然度

补充:Q6_K、Q8_0 极致性能详细指标

所有量化版本都有此报告。Q6_K 和 Q8_0 — 极致性能,含 BF16 组件。

报告生成方式:

  1. 从 BF16 GGUF 生成 LOGICS.DAT 文件:./perplexity -m w:/main.gguf -f wiki.test.raw --kl-divergence-base logits.dat
  2. 生成量化版本:./llama-quantize ...
  3. 测试量化版本:./llama-perplexity -m Q6_K.gguf -f wiki.test.raw --kl-divergence-base logits.dat --kl-divergence

“wiki.test.raw” 是困惑度测试的标准,包含 580 个测试块/每个量化版本 580 次测试。

Q6_K

====== Perplexity statistics ======
Mean PPL(Q) : 6.685104 ± 0.042129
Mean PPL(base) : 6.687935 ± 0.042136
Cor(ln(PPL(Q)), ln(PPL(base))): 99.93%
Mean ln(PPL(Q)/PPL(base)) : -0.000423 ± 0.000227
Mean PPL(Q)/PPL(base) : 0.999577 ± 0.000227
Mean PPL(Q)-PPL(base) : -0.002832 ± 0.001520

====== KL divergence statistics ======
Mean KLD: 0.002458 ± 0.000147
Maximum KLD: 13.136569
99.9% KLD: 0.093266
99.0% KLD: 0.017381
95.0% KLD: 0.005969
90.0% KLD: 0.003742
Median KLD: 0.000984
10.0% KLD: 0.000019
5.0% KLD: 0.000004
1.0% KLD: -0.000001
0.1% KLD: -0.000010
Minimum KLD: -0.000086

====== Token probability statistics ======
Mean Δp: -0.011 ± 0.004 %
Maximum Δp: 99.656%
99.9% Δp: 9.144%
99.0% Δp: 3.501%
95.0% Δp: 1.674%
90.0% Δp: 0.990%
75.0% Δp: 0.214%
Median Δp: 0.000%
25.0% Δp: -0.232%
10.0% Δp: -1.040%
5.0% Δp: -1.728%
1.0% Δp: -3.579%
0.1% Δp: -9.776%
Minimum Δp: -76.380%
RMS Δp : 1.433 ± 0.048 %
Same top p: 97.408 ± 0.041 %

Q8_0

====== Perplexity statistics ======
Mean PPL(Q) : 6.695419 ± 0.042239
Mean PPL(base) : 6.687935 ± 0.042136
Cor(ln(PPL(Q)), ln(PPL(base))): 99.96%
Mean ln(PPL(Q)/PPL(base)) : 0.001118 ± 0.000174
Mean PPL(Q)/PPL(base) : 1.001119 ± 0.000175
Mean PPL(Q)-PPL(base) : 0.007484 ± 0.001171

====== KL divergence statistics ======
Mean KLD: 0.001326 ± 0.000074
Maximum KLD: 7.088220
99.9% KLD: 0.048507
99.0% KLD: 0.007663
95.0% KLD: 0.002989
90.0% KLD: 0.002106
Median KLD: 0.000536
10.0% KLD: 0.000006
5.0% KLD: 0.000001
1.0% KLD: -0.000002
0.1% KLD: -0.000013
Minimum KLD: -0.000070

====== Token probability statistics ======
Mean Δp: -0.015 ± 0.003 %
Maximum Δp: 58.314%
99.9% Δp: 5.862%
99.0% Δp: 2.932%
95.0% Δp: 1.436%
90.0% Δp: 0.657%
75.0% Δp: 0.095%
Median Δp: 0.000%
25.0% Δp: -0.086%
10.0% Δp: -0.718%
5.0% Δp: -1.621%
1.0% Δp: -3.037%
0.1% Δp: -6.171%
Minimum Δp: -59.254%
RMS Δp : 1.082 ± 0.027 %
Same top p: 98.474 ± 0.032 %

Qwen 官方模型信息

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#qwen36-27b

Qwen3.6-27B

Qwen Chat (https://chat.qwen.ai/)

本仓库包含 Hugging Face Transformers 格式的后训练模型权重和配置文件。这些产物兼容 Hugging Face Transformers、vLLM、SGLang、KTransformers 等。

继今年二月 Qwen3.5 系列发布之后,我们很高兴分享 Qwen3.6 的首个开源权重版本。基于社区的直接反馈构建,Qwen3.6 优先考虑稳定性和实际效用,为开发者提供更直观、响应更迅速、真正高效的编程体验。

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#qwen36-highlights

Qwen3.6 亮点

本次发布带来了重大升级,特别是在:

  • Agentic Coding: 模型现在以更流畅、更精确的方式处理前端工作流和仓库级推理。
  • 思考保留: 我们引入了新的选项,可以保留历史消息中的推理上下文,简化迭代开发并减少开销。

基准测试结果 (https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3.6/Figures/qwen3.6_27b_score.png)

更多详情请参阅我们的博客文章 Qwen3.6-27B

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#model-overview

模型概览

  • 类型:带视觉编码器的因果语言模型
  • 训练阶段:预训练与后训练
  • 语言模型
    • 参数量:27B
    • 隐藏维度:5120
    • Token 嵌入:248320(填充后)
    • 层数:64
    • 隐藏层结构:16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
    • Gated DeltaNet:
      • 线性注意力头数:V 为 48,QK 为 16
      • 头维度:128
    • Gated Attention:
      • 注意力头数:Q 为 24,KV 为 4
      • 头维度:256
      • 旋转位置编码维度:64
    • 前馈网络:
      • 中间维度:17408
    • LM 输出:248320(填充后)
    • MTP:多步训练
  • 上下文长度:原生 262,144,可扩展至 1,010,000 token。

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#benchmark-results

基准测试结果

https://huggingface.co/DavidAU/Qwen3.6-27B-Heretic-Uncensored-FINETUNE-NEO-CODE-Di-IMatrix-MAX-GGUF#language

Qwen3.5-27BQwen3.5-397B-A17BGemma4-31BClaude 4.5 OpusQwen3.6-35B-A3BQwen3.6-27B
Coding Agent
SWE-bench Verified75.076.252.080.973.477.2
SWE-bench Pro51.250.935.757.149.553.5
SWE-bench Multilingual69.369.351.777.567.271.3
Terminal-Bench 2.041.652.542.959.351.559.3
SkillsBenchAvg 527.230.023.645.328.7
QwenWebBench106811861197153613971487
NL2Repo27.332.215.543.229.436.2
Claw-EvalAvg 64.370.748.576.668.772.4
Claw-EvalPass^3 46.248.125.059.650.060.6
QwenClawBench52.251.841.752.352.653.4
Knowledge
MMLU-Pro86.187.885.289.585.286.2
MMLU-Redux93.294.993.795.693.393.5
SuperGPQA65.670.465.770.664.766.0
C-Eval90.593.082.692.290.091.4
STEM & Reasoning
GPQA Diamond85.588.484.387.086.087.8
HLE24.328.719.530.821.424.0
LiveCodeBench v680.783.680.084.880.483.9
HMMT Feb 2592.094.888.792.990.793.8
HMMT Nov 2589.892.787.593.389.190.7
HMMT Feb 2684.387.977.285.383.684.3
IMOAnswerBench 79.980.974.584.078.980.8
AIME2692.693.389.295.192.794.1

* SWE-Bench 系列:内部 agent 脚手架(bash + file-edit 工具);temp=1.0, top_p=0.95, 200K 上下文窗口。我们修正了 SWE-bench Pro 公开集中的一些问题任务,并在优化后的基准上评估所有基线。

* Terminal-Bench 2.0:Harbor/Terminus-2 框架;3小时超时,32 CPU/48 GB RAM;temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K ctx;5 次运行平均。

* SkillsBench:通过 OpenCode 在 78 个任务上评估(自包含子集,排除 API 依赖任务);5 次运行平均。

* NL2Repo:其他通过 Claude Code 评估(temp=1.0, top_p=0.95, max_turns=900)。

* QwenClawBench:真实用户分布的 Claw agent 基准;temp=0.6, 256K ctx。

* QwenWebBench:内部前端代码生成基准;中英双语,7 个类别(网页设计、Web 应用、游戏、SVG、数据可视化、动画和 3D);自动渲染 + 多模态评判(代码/视觉正确性)。

相似文章

Qwen3.6-35B-A3B-Uncensored-Genesis-APEX-MTP

Reddit r/LocalLLaMA

Qwen模型(Qwen3.6-35B-A3B)的精调无审查版本,支持MTP和APEX量化,经测试在200k上下文下稳定运行,推荐在LM Studio中使用。