85 GPU小时比较5种消融方法在Qwen3.6-27B上:基准测试、安全性、权重取证 - Abliterlitics
摘要
本文介绍了Abliterlitics,一个用于分析消融技术的开源工具包,并比较了Qwen3.6-27B的五种消融变体,使用了85 GPU小时的基准测试、安全评估和权重取证。Heretic和Huihui在保持能力方面表现最佳,而所有变体都实现了近乎完全的安全移除。
我一直在构建 [Abliterlitics](https://github.com/dreamfast/abliterlitics),一个开源的消融取证工具包。思路很简单:对同一基础模型,比较他人应用的不同消融技术,然后通过基准测试、安全评估、分布偏移和权重级别的分析来衡量实际变化。本文涵盖 Qwen3.6-27B,比较了五种消融变体与基础模型。我从 HauhauCS 的 Q8\_K\_P GGUF 中恢复了 safetensors,然后对所有六个模型进行了85小时的基准测试、HarmBench、KL 散度和权重取证。Heretic 和 Huihui 在能力保持方面名列前茅:Huihui 的基准测试变化最小,Heretic 的 KL 散度最低。所有五个消融模型都实现了近乎完全的安全移除。AEON 宣称的“增强能力”与数据相矛盾。Abliterix 的能力保持能力远逊于其他。完整报告包含所有表格和图表:[HuggingFace 模型卡](https://huggingface.co/DreamFast/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Safetensor-Benchmark)。
# 六个模型
|名称|类型|
|:-|:-|
|Base|[Qwen/Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B)|
|Heretic|[llmfan46/Qwen3.6-27B-uncensored-heretic-v2](https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2)|
|HauhauCS|[HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive](https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive)|
|Huihui|[huihui-ai/Huihui-Qwen3.6-27B-abliterated](https://huggingface.co/huihui-ai/Huihui-Qwen3.6-27B-abliterated)|
|AEON|[AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-BF16](https://huggingface.co/AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-BF16)|
|Abliterix|[wangzhang/Qwen3.6-27B-abliterated-v2](https://huggingface.co/wangzhang/Qwen3.6-27B-abliterated-v2)|
HauhauCS 使用了一个名为“Reaper Abliteration”的工具,该工具[被证实是从 Heretic 抄袭的](https://www.reddit.com/r/LocalLLaMA/comments/1sw77p0/hauhaucs_of_uncensored_aggressive_fame_published/),违反了 AGPL-3.0 许可,剥离了所有署名并重新许可为 PolyForm Noncommercial。根据我们对恢复源代码的分析,Reaper 在 Heretic 衍生核心的基础上添加了子空间秩-k 消融、每个组件的连续曲线以及 SOM 聚类。该模型以 Q8\_K\_P GGUF 格式导出。我使用我们的 GGUF 转 safetensors 工具 [ungguf](https://github.com/dreamfast/ungguf) 将其转换回 safetensors。因此,权重包含了两层修改:Reaper 的消融编辑和 GGUF 量化的往返噪声,两者叠加。我将在未来的所有比较中**停止使用** HauhauCS。没有合适的 safetensors 且工具是抄袭的,没有继续的意义。无损耗的说法在每个模型中都被推翻,工具 [Reaper Abliteration 完全公开,任何人都可以看到模型的创建方式](https://dreamfast.github.io/reaper-analysis/reaper_readme.html)。
# 基准测试
使用 [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) 通过 vLLM 0.19.0 评估,BitsAndBytes 4-bit 量化,在单个 RTX 5090 上运行。所有六个模型在相同设置下测试。BNB4 量化会降低绝对分数,但保留了变体之间的相对变化。
|任务|Base|Heretic|HauhauCS|Huihui|AEON|Abliterix|
|:-|:-|:-|:-|:-|:-|:-|
|MMLU|83.3%|82.8%|**83.9%**|83.4%|82.9%|81.3%|
|HellaSwag|**83.5%**|83.2%|83.1%|**83.5%**|82.7%|77.3%|
|ARC Challenge|59.1%|58.0%|57.9%|**59.5%**|56.1%|53.2%|
|WinoGrande|**77.7%**|**77.7%**|**77.7%**|77.4%|75.3%|74.9%|
|TruthfulQA MC2|**56.7%**|51.1%|47.2%|54.8%|46.1%|48.7%|
|PiQA|81.0%|81.0%|81.0%|**81.2%**|80.4%|75.7%|
|GSM8K (7168 tok)|34.4%|27.5%|51.0%|**75.1%**|51.2%|37.6%|
|Lambada (ppl)|3.18|3.24|3.35|**3.15**|3.44|9.12|
# 与基础模型的差值
|任务|Heretic|HauhauCS|Huihui|AEON|Abliterix|
|:-|:-|:-|:-|:-|:-|
|MMLU|\-0.5|\+0.6|**+0.1**|\-0.4|\-2.0|
|HellaSwag|\-0.3|\-0.4|**+0.0**|\-0.8|\-6.2|
|ARC Challenge|\-1.1|\-1.2|**+0.4**|\-3.0|\-5.9|
|WinoGrande|**+0.0**|**+0.0**|\-0.3|\-2.4|\-2.8|
|TruthfulQA MC2|\-5.6|\-9.5|**-1.9**|\-10.6|\-8.0|
|PiQA|**+0.0**|**+0.0**|\+0.2|\-0.6|\-5.3|
|GSM8K|\-6.9|\+16.6|\+40.7|\+16.8|\+3.2|
图表:[基准测试比较](https://murmur.dreamfast.solutions/qwen36-graphs/qwen36_27b_benchmark_comparison.svg) | [差值图表](https://murmur.dreamfast.solutions/qwen36-graphs/qwen36_27b_benchmark_delta.svg)
# HarmBench
使用 [HarmBench](https://github.com/centerforaisafety/HarmBench) 的400个文本行为,`max_tokens=6144`,通过 CoT 方向分析进行分类。由三个独立的 LLM 审查者验证。
|变体|ASR|空响应|Full CoT ASR|
|:-|:-|:-|:-|
|Base|25.8%|**1**|26.0%|
|Huihui|**98.5%**|**5**|99.8%|
|HauhauCS|94.5%|22|**100.0%**|
|Abliterix|94.5%|22|**100.0%**|
|Heretic|92.5%|30|**100.0%**|
|AEON|88.8%|45|**100.0%**|
五个中有四个达到100%的 Full CoT ASR。报告的 ASR 差异源于在可见响应之前,6144 个 token 的生成预算被思维链推理消耗的程度。当预算耗尽时,响应为空,分类器将其标记为拒绝。这**低估**了真实的 ASR。
图表:[HarmBench 摘要](https://murmur.dreamfast.solutions/qwen36-graphs/qwen36_27b_harmbench_summary.svg) | [按类别](https://murmur.dreamfast.solutions/qwen36-graphs/qwen36_27b_harmbench_asr.svg)
# KL 散度
越低越好。衡量在良性提示下与基础模型的输出分布偏移。
|变体|KL (batchmean)|评级|
|:-|:-|:-|
|Heretic|**0.0037**|优秀|
|Huihui|0.0074|优秀|
|Abliterix|0.0222|非常好|
|AEON|0.0238|非常好|
|HauhauCS|0.0242|非常好|
所有五个都远低于能力损伤阈值(KL 约0.1)。
# 权重分析
这才是真正有趣的部分。
|指标|AEON|Abliterix|Heretic|Huihui|HauhauCS|
|:-|:-|:-|:-|:-|:-|
|张量改变数量|88 (10.4%)|101 (11.9%)|120 (14.1%)|128 (15.1%)|**564 (66.4%)**|
|相对编辑幅度|6.0%|5.2%|2.1%|1.5%|0.7%|
HauhauCS 是一个极端异常值,其更改的键数量是其他变体的4.4-6.4倍。这是 Reaper 的消融针对多种组件类型以及 GGUF Q8\_K\_P 往返噪声共同作用的结果。在所有张量类型中都能看到均匀的约0.57%的相对编辑,包括其他方法不触及的类型,如 embed\_tokens 和 q\_proj。消融信号叠加在这个噪声底限之上。其他四种技术之间的成对余弦相似度大多低于0.07。没有两种技术发现相同的权重方向。权重空间中的“拒绝方向”并非单一向量,而是一个具有许多可行移除路径的流形。
# 突出点
**Heretic** 的 KL 散度最低,为0.0037,评级“优秀”。权重足迹最小,相对编辑仅为2.1%。GSM8K 损失最小,仅下降6.9个百分点。达到100% Full CoT ASR。涉及120个张量,3种类型。
**Huihui** 的基准测试变化最小。非 GSM8K 任务的平均差值仅为0.5个百分点,优于 Heretic 的1.3个百分点。在6项非 GSM8K 任务中有4项直接胜出。报告的 ASR 最高,达98.5%,空响应最少,仅5个。KL 散度为0.0074,同样评级“优秀”。但 GSM8K 得分75.1%,较基础模型提升40.7个百分点。没有消融应该能如此大幅提升推理能力。我们已双重检查这些结果,并期待看到其他人的独立基准测试。
**HauhauCS** 尽管权重指纹复杂,但行为结果稳健。MMLU 较基础模型提升0.6个百分点。ASR 为94.5%,Full CoT 达到100%。Reaper 消融加上 GGUF 噪声并未显著损害输出分布。当 Heretic 和 Huihui 都能更好地保持能力时,“无损”的说法显然不成立。权重本身包含 Reaper 的消融编辑和量化伪影。
**AEON** 在所有非 GSM8K 任务上均有下降。TruthfulQA 下降10.6个百分点。ARC 下降3.0个百分点。思维循环最严重,400个响应中有45个为空。其声称的“无循环、无哲学螺旋”和“可测量的增强能力”与数据相矛盾。
**Abliterix** 具有
相似文章
13个abliterated Gemma 4 E2B变体,44 GPU小时,基准测试与对比 - Abliterlitics
谷歌 Gemma 4 E2B 模型的 13 个 abliterated 变种的详细比较,评估了安全移除与能力保留。研究发现,精确的手术式 abliteration 可以保留甚至提升推理能力,而激进的方法则会导致显著的性能下降。
新版abliteration工具Apostate与其他工具相比如何? - Abliterlitics
对三种abliteration工具——Apostate、Heretic和Huihui——应用于Qwen 2.5 7B的详细比较,显示它们都能有效移除拒绝行为,且性能下降极小。
OBLITERATUS/Qwen3.6-27B-OBLITERATED
OBLITERATUS 发布了经过修改的 27B Qwen3.6 检查点,通过源绑定消融技术消除了拒绝行为,保留了能力并支持无审查的本地使用。公开基准测试显示高非拒绝率,同时保持了 MMLU-Pro 分数。
我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4
在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。
Qwen 3.6 35B A3B 的热度绝非虚名!
作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。