新版abliteration工具Apostate与其他工具相比如何？ - Abliterlitics

Reddit r/LocalLLaMA 2026/06/03 12:58 工具

abliteration llm safety benchmarking open-source qwen refusal-direction

摘要

对三种abliteration工具——Apostate、Heretic和Huihui——应用于Qwen 2.5 7B的详细比较，显示它们都能有效移除拒绝行为，且性能下降极小。

为什么选择Qwen 2.5 7B？[Apostate](https://github.com/heterodoxin/apostate) 是heterodoxin开发的一款新的abliteration工具。他让我对其进行基准测试。Qwen 2.5 7B 是他推荐的，因为它是Apostate测试最多的模型。我使用Heretic v1.3.0和Apostate对该模型进行了abliteration处理。模型可在[huggingface](https://huggingface.co/DreamFast)上获取。该工具本身受Heretic启发，但经过代码审查，它显然是理解机器学习和数学原理的人的原创作品。Heretic的作者p-e-w在Apostate被分享到Heretic Discord频道时也确认了这一点。所以我们可以放心，这可不是[另一起hauhaucs事件！](https://www.reddit.com/r/LocalLLaMA/comments/1sw77p0/hauhaucs_of_uncensored_aggressive_fame_published/) 那么它与Heretic和Huihui相比如何呢？让我们一探究竟！Heretic略胜一筹。ASR（攻击成功率）达到100%，没有留下任何拒绝样本，修改的参数数量减半，而且模型在某些任务上实际上表现更好了。Apostate和Huihui都达到了98%，但仍有少量样本被拒绝。总体而言，Apostate仍然非常出色，三者之间差距很小。查看完整分析请访问[HuggingFace](https://huggingface.co/DreamFast/Qwen-2.5-7b-abliterlitics)。 # 三种变体 |变体|来源|张量变更数|参数变更比例| |:-|:-|:-|:-| |[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|heterodoxin，平衡配置|55 (16.2%)|35.8%| |[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|huihui-ai，社区|57 (16.8%)|36.8%| |[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)|Heretic v1.3.0，由我运行|**37 (10.9%)**|**20.0%**| 三者做的事情相同：找到模型权重中的“拒绝方向”并将其移除。它们只是找到了略有不同的方向，并编辑了不同的层。 # 令人惊讶的部分 Apostate和Huihui找到了几乎完全不同的拒绝方向，余弦相似度仅为0.023。这两个工具独立发现了完全不同的禁用安全训练的方法，却都取得了几乎相同的结果。这表明Qwen 2.5 7B的安全训练并没有单一的“关闭开关”，存在多条独立路径可以移除它。 # 基准测试使用[lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)通过vLLM 0.19.0在RTX 5090 32GB上以bf16精度进行评估。 |任务|[基础模型](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)|[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)| |:-|:-|:-|:-|:-| |MMLU|**71.78**|71.43|70.27|71.59| |GSM8K|79.23|80.74|80.74|**80.82**| |HellaSwag|**80.47**|80.32|79.88|80.24| |ARC Challenge|55.12|55.12|55.12|**55.55**| |WinoGrande|**71.03**|69.38|69.53|70.72| |TruthfulQA MC2|**64.83**|62.59|60.89|60.39| |PiQA|**80.25**|79.92|79.60|80.41| |LAMBADA ppl ↓|3.683|3.860|4.087|**3.627**| 三者在大多数任务上几乎没有变化。GSM8K在所有三个变体上实际上都提高了。Heretic是唯一一个让模型在文本预测上变得更好的变体。没有一个对模型造成有意义的损害。 # HarmBench 测试了400种有害行为。模型是否愿意遵从我们的恶意请求？ |变体|ASR|遵从数|拒绝数|持续拒绝数| |:-|:-|:-|:-|:-| |[基础模型](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)|31.0%|124|276|\-| |[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|98.8%|395|5|5| |[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|98.2%|393|7|7| |[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)|**100.0%**|**400**|**0**|**0**| 基础模型拒绝了276个有害请求。三个abliterated变体将绝大多数拒绝转变为遵从。Heretic全部400个都成功。Apostate留下了5个，Huihui留下了7个。留下的拒绝属于最困难的类别：骚扰和有害内容。Heretic是唯一一个清除了这些类别的变体。 # KL散度模型在正常、无害提示上的行为变化有多大？越低越好。 |变体|KL批量均值| |:-|:-| |[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|**0.134**| |[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|0.190| |[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)|0.211| 三者都属于中等水平。模型仍然正常对话。Apostate的变化最小，因为它将编辑分散到更多层，力度较轻。Heretic影响层数更少但力度更大，因此整体变化稍大。这些数字都不令人担忧。Heretic是非确定性的，我们可以继续运行Heretic试验以获得更好的KL分数。幸运的是，我们只运行了200次试验就得到了这个不错的结果。 # 权重分析 |\-|Apostate|Huihui|Heretic| |:-|:-|:-|:-| |张量变更数|55 (16.2%)|57 (16.8%)|**37 (10.9%)**| |参数变更比例|35.8%|36.8%|**20.0%**| |平均编辑范数|1.63|1.85|**2.33**| |修改层数|27/28|28/28|**19/28**| |嵌入层是否触碰|是（极少量）|是（极少量）|否| Heretic改变了模型最少的部分。它完全跳过了前9层，并且没有触碰嵌入层。但它所做的每次编辑都更具攻击性。Apostate和Huihui编辑了模型的更多部分，但每层的力度较轻。 # 结论 **Heretic** 是这个模型的首选。100% ASR，保留最多能力，修改参数最少。模型在某些方面实际上变得更好。 **Apostate** 是新的，并且有效。它达到了98.8%的ASR，并且在正常提示下的行为变化最小。它仍然拒绝的5个项目是最困难的那些。稳固的第二名，完全有效的选择。 **Huihui** 在三个变体中能力下降最大，因为它触碰了每一层。仍然有98.2%的ASR，但对于这个模型，没有真正理由选择它而不是其他两个。 # 链接包含所有表格、图表和原始数据的完整报告：[HuggingFace](https://huggingface.co/DreamFast/Qwen-2.5-7b-abliterlitics) 以及我们的新网站 [Abliterlitics.dev](https://abliterlitics.dev/models/qwen25-7b/) 取证工具包：[GitHub上的Abliterlitics](https://github.com/dreamfast/abliterlitics) 关于我上次的 [Gemma 4 E2b 比较](https://reddit.com/r/LocalLLaMA/comments/1tsvs3j/13_abliterated_gemma_4_e2b_variants_44_gpu_hours/)，感谢指出AI垃圾内容。我承认我在Reddit帖子和其他部分上偷懒了。今后我希望为读者提供更优质的人工内容。<3 感谢支持abliterlitics！

查看原文

@support_huihui: 新的MTP-GGUF：huihui-ai/Huihui-Qwen3.6-27B-abliterated-MTP-GGUF 这是Qwen/Qwen3.6-27B的无审查版本，通过abliteration创建...

X AI KOLs Timeline

huihui-ai在Hugging Face上发布了Qwen3.6-27B的无审查GGUF版本，通过abliteration创建。

新版abliteration工具Apostate与其他工具相比如何？ - Abliterlitics

相似文章

85 GPU小时比较5种消融方法在Qwen3.6-27B上：基准测试、安全性、权重取证 - Abliterlitics

OBLITERATUS/Qwen3.6-27B-OBLITERATED

13个abliterated Gemma 4 E2B变体，44 GPU小时，基准测试与对比 - Abliterlitics

ChromaFlow: 工具增强型智能体评估中编排开销的负消融研究

@support_huihui: 新的MTP-GGUF：huihui-ai/Huihui-Qwen3.6-27B-abliterated-MTP-GGUF 这是Qwen/Qwen3.6-27B的无审查版本，通过abliteration创建...

提交意见反馈