85 GPU小时比较5种消融方法在Qwen3.6-27B上：基准测试、安全性、权重取证 - Abliterlitics

Reddit r/LocalLLaMA 2026/05/17 11:18 论文

abliteration benchmarks safety-evaluation weight-forensics open-source qwen3.6-27b llm-uncensoring

摘要

本文介绍了Abliterlitics，一个用于分析消融技术的开源工具包，并比较了Qwen3.6-27B的五种消融变体，使用了85 GPU小时的基准测试、安全评估和权重取证。Heretic和Huihui在保持能力方面表现最佳，而所有变体都实现了近乎完全的安全移除。

我一直在构建 [Abliterlitics](https://github.com/dreamfast/abliterlitics)，一个开源的消融取证工具包。思路很简单：对同一基础模型，比较他人应用的不同消融技术，然后通过基准测试、安全评估、分布偏移和权重级别的分析来衡量实际变化。本文涵盖 Qwen3.6-27B，比较了五种消融变体与基础模型。我从 HauhauCS 的 Q8\_K\_P GGUF 中恢复了 safetensors，然后对所有六个模型进行了85小时的基准测试、HarmBench、KL 散度和权重取证。Heretic 和 Huihui 在能力保持方面名列前茅：Huihui 的基准测试变化最小，Heretic 的 KL 散度最低。所有五个消融模型都实现了近乎完全的安全移除。AEON 宣称的“增强能力”与数据相矛盾。Abliterix 的能力保持能力远逊于其他。完整报告包含所有表格和图表：[HuggingFace 模型卡](https://huggingface.co/DreamFast/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Safetensor-Benchmark)。 # 六个模型 |名称|类型| |:-|:-| |Base|[Qwen/Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B)| |Heretic|[llmfan46/Qwen3.6-27B-uncensored-heretic-v2](https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2)| |HauhauCS|[HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive](https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive)| |Huihui|[huihui-ai/Huihui-Qwen3.6-27B-abliterated](https://huggingface.co/huihui-ai/Huihui-Qwen3.6-27B-abliterated)| |AEON|[AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-BF16](https://huggingface.co/AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-BF16)| |Abliterix|[wangzhang/Qwen3.6-27B-abliterated-v2](https://huggingface.co/wangzhang/Qwen3.6-27B-abliterated-v2)| HauhauCS 使用了一个名为“Reaper Abliteration”的工具，该工具[被证实是从 Heretic 抄袭的](https://www.reddit.com/r/LocalLLaMA/comments/1sw77p0/hauhaucs_of_uncensored_aggressive_fame_published/)，违反了 AGPL-3.0 许可，剥离了所有署名并重新许可为 PolyForm Noncommercial。根据我们对恢复源代码的分析，Reaper 在 Heretic 衍生核心的基础上添加了子空间秩-k 消融、每个组件的连续曲线以及 SOM 聚类。该模型以 Q8\_K\_P GGUF 格式导出。我使用我们的 GGUF 转 safetensors 工具 [ungguf](https://github.com/dreamfast/ungguf) 将其转换回 safetensors。因此，权重包含了两层修改：Reaper 的消融编辑和 GGUF 量化的往返噪声，两者叠加。我将在未来的所有比较中**停止使用** HauhauCS。没有合适的 safetensors 且工具是抄袭的，没有继续的意义。无损耗的说法在每个模型中都被推翻，工具 [Reaper Abliteration 完全公开，任何人都可以看到模型的创建方式](https://dreamfast.github.io/reaper-analysis/reaper_readme.html)。 # 基准测试使用 [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) 通过 vLLM 0.19.0 评估，BitsAndBytes 4-bit 量化，在单个 RTX 5090 上运行。所有六个模型在相同设置下测试。BNB4 量化会降低绝对分数，但保留了变体之间的相对变化。 |任务|Base|Heretic|HauhauCS|Huihui|AEON|Abliterix| |:-|:-|:-|:-|:-|:-|:-| |MMLU|83.3%|82.8%|**83.9%**|83.4%|82.9%|81.3%| |HellaSwag|**83.5%**|83.2%|83.1%|**83.5%**|82.7%|77.3%| |ARC Challenge|59.1%|58.0%|57.9%|**59.5%**|56.1%|53.2%| |WinoGrande|**77.7%**|**77.7%**|**77.7%**|77.4%|75.3%|74.9%| |TruthfulQA MC2|**56.7%**|51.1%|47.2%|54.8%|46.1%|48.7%| |PiQA|81.0%|81.0%|81.0%|**81.2%**|80.4%|75.7%| |GSM8K (7168 tok)|34.4%|27.5%|51.0%|**75.1%**|51.2%|37.6%| |Lambada (ppl)|3.18|3.24|3.35|**3.15**|3.44|9.12| # 与基础模型的差值 |任务|Heretic|HauhauCS|Huihui|AEON|Abliterix| |:-|:-|:-|:-|:-|:-| |MMLU|\-0.5|\+0.6|**+0.1**|\-0.4|\-2.0| |HellaSwag|\-0.3|\-0.4|**+0.0**|\-0.8|\-6.2| |ARC Challenge|\-1.1|\-1.2|**+0.4**|\-3.0|\-5.9| |WinoGrande|**+0.0**|**+0.0**|\-0.3|\-2.4|\-2.8| |TruthfulQA MC2|\-5.6|\-9.5|**-1.9**|\-10.6|\-8.0| |PiQA|**+0.0**|**+0.0**|\+0.2|\-0.6|\-5.3| |GSM8K|\-6.9|\+16.6|\+40.7|\+16.8|\+3.2| 图表：[基准测试比较](https://murmur.dreamfast.solutions/qwen36-graphs/qwen36_27b_benchmark_comparison.svg) | [差值图表](https://murmur.dreamfast.solutions/qwen36-graphs/qwen36_27b_benchmark_delta.svg) # HarmBench 使用 [HarmBench](https://github.com/centerforaisafety/HarmBench) 的400个文本行为，`max_tokens=6144`，通过 CoT 方向分析进行分类。由三个独立的 LLM 审查者验证。 |变体|ASR|空响应|Full CoT ASR| |:-|:-|:-|:-| |Base|25.8%|**1**|26.0%| |Huihui|**98.5%**|**5**|99.8%| |HauhauCS|94.5%|22|**100.0%**| |Abliterix|94.5%|22|**100.0%**| |Heretic|92.5%|30|**100.0%**| |AEON|88.8%|45|**100.0%**| 五个中有四个达到100%的 Full CoT ASR。报告的 ASR 差异源于在可见响应之前，6144 个 token 的生成预算被思维链推理消耗的程度。当预算耗尽时，响应为空，分类器将其标记为拒绝。这**低估**了真实的 ASR。图表：[HarmBench 摘要](https://murmur.dreamfast.solutions/qwen36-graphs/qwen36_27b_harmbench_summary.svg) | [按类别](https://murmur.dreamfast.solutions/qwen36-graphs/qwen36_27b_harmbench_asr.svg) # KL 散度越低越好。衡量在良性提示下与基础模型的输出分布偏移。 |变体|KL (batchmean)|评级| |:-|:-|:-| |Heretic|**0.0037**|优秀| |Huihui|0.0074|优秀| |Abliterix|0.0222|非常好| |AEON|0.0238|非常好| |HauhauCS|0.0242|非常好| 所有五个都远低于能力损伤阈值（KL 约0.1）。 # 权重分析这才是真正有趣的部分。 |指标|AEON|Abliterix|Heretic|Huihui|HauhauCS| |:-|:-|:-|:-|:-|:-| |张量改变数量|88 (10.4%)|101 (11.9%)|120 (14.1%)|128 (15.1%)|**564 (66.4%)**| |相对编辑幅度|6.0%|5.2%|2.1%|1.5%|0.7%| HauhauCS 是一个极端异常值，其更改的键数量是其他变体的4.4-6.4倍。这是 Reaper 的消融针对多种组件类型以及 GGUF Q8\_K\_P 往返噪声共同作用的结果。在所有张量类型中都能看到均匀的约0.57%的相对编辑，包括其他方法不触及的类型，如 embed\_tokens 和 q\_proj。消融信号叠加在这个噪声底限之上。其他四种技术之间的成对余弦相似度大多低于0.07。没有两种技术发现相同的权重方向。权重空间中的“拒绝方向”并非单一向量，而是一个具有许多可行移除路径的流形。 # 突出点 **Heretic** 的 KL 散度最低，为0.0037，评级“优秀”。权重足迹最小，相对编辑仅为2.1%。GSM8K 损失最小，仅下降6.9个百分点。达到100% Full CoT ASR。涉及120个张量，3种类型。 **Huihui** 的基准测试变化最小。非 GSM8K 任务的平均差值仅为0.5个百分点，优于 Heretic 的1.3个百分点。在6项非 GSM8K 任务中有4项直接胜出。报告的 ASR 最高，达98.5%，空响应最少，仅5个。KL 散度为0.0074，同样评级“优秀”。但 GSM8K 得分75.1%，较基础模型提升40.7个百分点。没有消融应该能如此大幅提升推理能力。我们已双重检查这些结果，并期待看到其他人的独立基准测试。 **HauhauCS** 尽管权重指纹复杂，但行为结果稳健。MMLU 较基础模型提升0.6个百分点。ASR 为94.5%，Full CoT 达到100%。Reaper 消融加上 GGUF 噪声并未显著损害输出分布。当 Heretic 和 Huihui 都能更好地保持能力时，“无损”的说法显然不成立。权重本身包含 Reaper 的消融编辑和量化伪影。 **AEON** 在所有非 GSM8K 任务上均有下降。TruthfulQA 下降10.6个百分点。ARC 下降3.0个百分点。思维循环最严重，400个响应中有45个为空。其声称的“无循环、无哲学螺旋”和“可测量的增强能力”与数据相矛盾。 **Abliterix** 具有

查看原文

85 GPU小时比较5种消融方法在Qwen3.6-27B上：基准测试、安全性、权重取证 - Abliterlitics

相似文章

13个abliterated Gemma 4 E2B变体，44 GPU小时，基准测试与对比 - Abliterlitics

新版abliteration工具Apostate与其他工具相比如何？ - Abliterlitics

OBLITERATUS/Qwen3.6-27B-OBLITERATED

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Qwen 3.6 35B A3B 的热度绝非虚名！

提交意见反馈