新版abliteration工具Apostate与其他工具相比如何? - Abliterlitics
摘要
对三种abliteration工具——Apostate、Heretic和Huihui——应用于Qwen 2.5 7B的详细比较,显示它们都能有效移除拒绝行为,且性能下降极小。
为什么选择Qwen 2.5 7B?[Apostate](https://github.com/heterodoxin/apostate) 是heterodoxin开发的一款新的abliteration工具。他让我对其进行基准测试。Qwen 2.5 7B 是他推荐的,因为它是Apostate测试最多的模型。我使用Heretic v1.3.0和Apostate对该模型进行了abliteration处理。模型可在[huggingface](https://huggingface.co/DreamFast)上获取。该工具本身受Heretic启发,但经过代码审查,它显然是理解机器学习和数学原理的人的原创作品。Heretic的作者p-e-w在Apostate被分享到Heretic Discord频道时也确认了这一点。所以我们可以放心,这可不是[另一起hauhaucs事件!](https://www.reddit.com/r/LocalLLaMA/comments/1sw77p0/hauhaucs_of_uncensored_aggressive_fame_published/) 那么它与Heretic和Huihui相比如何呢?让我们一探究竟!Heretic略胜一筹。ASR(攻击成功率)达到100%,没有留下任何拒绝样本,修改的参数数量减半,而且模型在某些任务上实际上表现更好了。Apostate和Huihui都达到了98%,但仍有少量样本被拒绝。总体而言,Apostate仍然非常出色,三者之间差距很小。查看完整分析请访问[HuggingFace](https://huggingface.co/DreamFast/Qwen-2.5-7b-abliterlitics)。
# 三种变体
|变体|来源|张量变更数|参数变更比例|
|:-|:-|:-|:-|
|[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|heterodoxin,平衡配置|55 (16.2%)|35.8%|
|[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|huihui-ai,社区|57 (16.8%)|36.8%|
|[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)|Heretic v1.3.0,由我运行|**37 (10.9%)**|**20.0%**|
三者做的事情相同:找到模型权重中的“拒绝方向”并将其移除。它们只是找到了略有不同的方向,并编辑了不同的层。
# 令人惊讶的部分
Apostate和Huihui找到了几乎完全不同的拒绝方向,余弦相似度仅为0.023。这两个工具独立发现了完全不同的禁用安全训练的方法,却都取得了几乎相同的结果。这表明Qwen 2.5 7B的安全训练并没有单一的“关闭开关”,存在多条独立路径可以移除它。
# 基准测试
使用[lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)通过vLLM 0.19.0在RTX 5090 32GB上以bf16精度进行评估。
|任务|[基础模型](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)|[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)|
|:-|:-|:-|:-|:-|
|MMLU|**71.78**|71.43|70.27|71.59|
|GSM8K|79.23|80.74|80.74|**80.82**|
|HellaSwag|**80.47**|80.32|79.88|80.24|
|ARC Challenge|55.12|55.12|55.12|**55.55**|
|WinoGrande|**71.03**|69.38|69.53|70.72|
|TruthfulQA MC2|**64.83**|62.59|60.89|60.39|
|PiQA|**80.25**|79.92|79.60|80.41|
|LAMBADA ppl ↓|3.683|3.860|4.087|**3.627**|
三者在大多数任务上几乎没有变化。GSM8K在所有三个变体上实际上都提高了。Heretic是唯一一个让模型在文本预测上变得更好的变体。没有一个对模型造成有意义的损害。
# HarmBench
测试了400种有害行为。模型是否愿意遵从我们的恶意请求?
|变体|ASR|遵从数|拒绝数|持续拒绝数|
|:-|:-|:-|:-|:-|
|[基础模型](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)|31.0%|124|276|\-|
|[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|98.8%|395|5|5|
|[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|98.2%|393|7|7|
|[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)|**100.0%**|**400**|**0**|**0**|
基础模型拒绝了276个有害请求。三个abliterated变体将绝大多数拒绝转变为遵从。Heretic全部400个都成功。Apostate留下了5个,Huihui留下了7个。留下的拒绝属于最困难的类别:骚扰和有害内容。Heretic是唯一一个清除了这些类别的变体。
# KL散度
模型在正常、无害提示上的行为变化有多大?越低越好。
|变体|KL批量均值|
|:-|:-|
|[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|**0.134**|
|[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|0.190|
|[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)|0.211|
三者都属于中等水平。模型仍然正常对话。Apostate的变化最小,因为它将编辑分散到更多层,力度较轻。Heretic影响层数更少但力度更大,因此整体变化稍大。这些数字都不令人担忧。Heretic是非确定性的,我们可以继续运行Heretic试验以获得更好的KL分数。幸运的是,我们只运行了200次试验就得到了这个不错的结果。
# 权重分析
|\-|Apostate|Huihui|Heretic|
|:-|:-|:-|:-|
|张量变更数|55 (16.2%)|57 (16.8%)|**37 (10.9%)**|
|参数变更比例|35.8%|36.8%|**20.0%**|
|平均编辑范数|1.63|1.85|**2.33**|
|修改层数|27/28|28/28|**19/28**|
|嵌入层是否触碰|是(极少量)|是(极少量)|否|
Heretic改变了模型最少的部分。它完全跳过了前9层,并且没有触碰嵌入层。但它所做的每次编辑都更具攻击性。Apostate和Huihui编辑了模型的更多部分,但每层的力度较轻。
# 结论
**Heretic** 是这个模型的首选。100% ASR,保留最多能力,修改参数最少。模型在某些方面实际上变得更好。
**Apostate** 是新的,并且有效。它达到了98.8%的ASR,并且在正常提示下的行为变化最小。它仍然拒绝的5个项目是最困难的那些。稳固的第二名,完全有效的选择。
**Huihui** 在三个变体中能力下降最大,因为它触碰了每一层。仍然有98.2%的ASR,但对于这个模型,没有真正理由选择它而不是其他两个。
# 链接
包含所有表格、图表和原始数据的完整报告:[HuggingFace](https://huggingface.co/DreamFast/Qwen-2.5-7b-abliterlitics) 以及我们的新网站 [Abliterlitics.dev](https://abliterlitics.dev/models/qwen25-7b/)
取证工具包:[GitHub上的Abliterlitics](https://github.com/dreamfast/abliterlitics)
关于我上次的 [Gemma 4 E2b 比较](https://reddit.com/r/LocalLLaMA/comments/1tsvs3j/13_abliterated_gemma_4_e2b_variants_44_gpu_hours/),感谢指出AI垃圾内容。我承认我在Reddit帖子和其他部分上偷懒了。今后我希望为读者提供更优质的人工内容。<3 感谢支持abliterlitics!
相似文章
85 GPU小时比较5种消融方法在Qwen3.6-27B上:基准测试、安全性、权重取证 - Abliterlitics
本文介绍了Abliterlitics,一个用于分析消融技术的开源工具包,并比较了Qwen3.6-27B的五种消融变体,使用了85 GPU小时的基准测试、安全评估和权重取证。Heretic和Huihui在保持能力方面表现最佳,而所有变体都实现了近乎完全的安全移除。
OBLITERATUS/Qwen3.6-27B-OBLITERATED
OBLITERATUS 发布了经过修改的 27B Qwen3.6 检查点,通过源绑定消融技术消除了拒绝行为,保留了能力并支持无审查的本地使用。公开基准测试显示高非拒绝率,同时保持了 MMLU-Pro 分数。
13个abliterated Gemma 4 E2B变体,44 GPU小时,基准测试与对比 - Abliterlitics
谷歌 Gemma 4 E2B 模型的 13 个 abliterated 变种的详细比较,评估了安全移除与能力保留。研究发现,精确的手术式 abliteration 可以保留甚至提升推理能力,而激进的方法则会导致显著的性能下降。
ChromaFlow: 工具增强型智能体评估中编排开销的负消融研究
本文介绍了ChromaFlow,一个工具增强的自主推理框架,并进行了一项负消融研究,表明在GAIA基准测试中,更激进的编排并未提升性能,反而增加了操作噪声。
@support_huihui: 新的MTP-GGUF:huihui-ai/Huihui-Qwen3.6-27B-abliterated-MTP-GGUF 这是Qwen/Qwen3.6-27B的无审查版本,通过abliteration创建...
huihui-ai在Hugging Face上发布了Qwen3.6-27B的无审查GGUF版本,通过abliteration创建。