新版abliteration工具Apostate与其他工具相比如何? - Abliterlitics

Reddit r/LocalLLaMA 工具

摘要

对三种abliteration工具——Apostate、Heretic和Huihui——应用于Qwen 2.5 7B的详细比较,显示它们都能有效移除拒绝行为,且性能下降极小。

为什么选择Qwen 2.5 7B?[Apostate](https://github.com/heterodoxin/apostate) 是heterodoxin开发的一款新的abliteration工具。他让我对其进行基准测试。Qwen 2.5 7B 是他推荐的,因为它是Apostate测试最多的模型。我使用Heretic v1.3.0和Apostate对该模型进行了abliteration处理。模型可在[huggingface](https://huggingface.co/DreamFast)上获取。该工具本身受Heretic启发,但经过代码审查,它显然是理解机器学习和数学原理的人的原创作品。Heretic的作者p-e-w在Apostate被分享到Heretic Discord频道时也确认了这一点。所以我们可以放心,这可不是[另一起hauhaucs事件!](https://www.reddit.com/r/LocalLLaMA/comments/1sw77p0/hauhaucs_of_uncensored_aggressive_fame_published/) 那么它与Heretic和Huihui相比如何呢?让我们一探究竟!Heretic略胜一筹。ASR(攻击成功率)达到100%,没有留下任何拒绝样本,修改的参数数量减半,而且模型在某些任务上实际上表现更好了。Apostate和Huihui都达到了98%,但仍有少量样本被拒绝。总体而言,Apostate仍然非常出色,三者之间差距很小。查看完整分析请访问[HuggingFace](https://huggingface.co/DreamFast/Qwen-2.5-7b-abliterlitics)。 # 三种变体 |变体|来源|张量变更数|参数变更比例| |:-|:-|:-|:-| |[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|heterodoxin,平衡配置|55 (16.2%)|35.8%| |[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|huihui-ai,社区|57 (16.8%)|36.8%| |[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)|Heretic v1.3.0,由我运行|**37 (10.9%)**|**20.0%**| 三者做的事情相同:找到模型权重中的“拒绝方向”并将其移除。它们只是找到了略有不同的方向,并编辑了不同的层。 # 令人惊讶的部分 Apostate和Huihui找到了几乎完全不同的拒绝方向,余弦相似度仅为0.023。这两个工具独立发现了完全不同的禁用安全训练的方法,却都取得了几乎相同的结果。这表明Qwen 2.5 7B的安全训练并没有单一的“关闭开关”,存在多条独立路径可以移除它。 # 基准测试 使用[lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)通过vLLM 0.19.0在RTX 5090 32GB上以bf16精度进行评估。 |任务|[基础模型](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)|[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)| |:-|:-|:-|:-|:-| |MMLU|**71.78**|71.43|70.27|71.59| |GSM8K|79.23|80.74|80.74|**80.82**| |HellaSwag|**80.47**|80.32|79.88|80.24| |ARC Challenge|55.12|55.12|55.12|**55.55**| |WinoGrande|**71.03**|69.38|69.53|70.72| |TruthfulQA MC2|**64.83**|62.59|60.89|60.39| |PiQA|**80.25**|79.92|79.60|80.41| |LAMBADA ppl ↓|3.683|3.860|4.087|**3.627**| 三者在大多数任务上几乎没有变化。GSM8K在所有三个变体上实际上都提高了。Heretic是唯一一个让模型在文本预测上变得更好的变体。没有一个对模型造成有意义的损害。 # HarmBench 测试了400种有害行为。模型是否愿意遵从我们的恶意请求? |变体|ASR|遵从数|拒绝数|持续拒绝数| |:-|:-|:-|:-|:-| |[基础模型](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)|31.0%|124|276|\-| |[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|98.8%|395|5|5| |[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|98.2%|393|7|7| |[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)|**100.0%**|**400**|**0**|**0**| 基础模型拒绝了276个有害请求。三个abliterated变体将绝大多数拒绝转变为遵从。Heretic全部400个都成功。Apostate留下了5个,Huihui留下了7个。留下的拒绝属于最困难的类别:骚扰和有害内容。Heretic是唯一一个清除了这些类别的变体。 # KL散度 模型在正常、无害提示上的行为变化有多大?越低越好。 |变体|KL批量均值| |:-|:-| |[Apostate](https://huggingface.co/DreamFast/Qwen-2.5-7b-apostate)|**0.134**| |[Huihui](https://huggingface.co/huihui-ai/Qwen2.5-7B-Instruct-abliterated-v2)|0.190| |[Heretic](https://huggingface.co/DreamFast/Qwen2.5-7B-Instruct-heretic-1.3.0)|0.211| 三者都属于中等水平。模型仍然正常对话。Apostate的变化最小,因为它将编辑分散到更多层,力度较轻。Heretic影响层数更少但力度更大,因此整体变化稍大。这些数字都不令人担忧。Heretic是非确定性的,我们可以继续运行Heretic试验以获得更好的KL分数。幸运的是,我们只运行了200次试验就得到了这个不错的结果。 # 权重分析 |\-|Apostate|Huihui|Heretic| |:-|:-|:-|:-| |张量变更数|55 (16.2%)|57 (16.8%)|**37 (10.9%)**| |参数变更比例|35.8%|36.8%|**20.0%**| |平均编辑范数|1.63|1.85|**2.33**| |修改层数|27/28|28/28|**19/28**| |嵌入层是否触碰|是(极少量)|是(极少量)|否| Heretic改变了模型最少的部分。它完全跳过了前9层,并且没有触碰嵌入层。但它所做的每次编辑都更具攻击性。Apostate和Huihui编辑了模型的更多部分,但每层的力度较轻。 # 结论 **Heretic** 是这个模型的首选。100% ASR,保留最多能力,修改参数最少。模型在某些方面实际上变得更好。 **Apostate** 是新的,并且有效。它达到了98.8%的ASR,并且在正常提示下的行为变化最小。它仍然拒绝的5个项目是最困难的那些。稳固的第二名,完全有效的选择。 **Huihui** 在三个变体中能力下降最大,因为它触碰了每一层。仍然有98.2%的ASR,但对于这个模型,没有真正理由选择它而不是其他两个。 # 链接 包含所有表格、图表和原始数据的完整报告:[HuggingFace](https://huggingface.co/DreamFast/Qwen-2.5-7b-abliterlitics) 以及我们的新网站 [Abliterlitics.dev](https://abliterlitics.dev/models/qwen25-7b/) 取证工具包:[GitHub上的Abliterlitics](https://github.com/dreamfast/abliterlitics) 关于我上次的 [Gemma 4 E2b 比较](https://reddit.com/r/LocalLLaMA/comments/1tsvs3j/13_abliterated_gemma_4_e2b_variants_44_gpu_hours/),感谢指出AI垃圾内容。我承认我在Reddit帖子和其他部分上偷懒了。今后我希望为读者提供更优质的人工内容。<3 感谢支持abliterlitics!
查看原文

相似文章

OBLITERATUS/Qwen3.6-27B-OBLITERATED

Hugging Face Models Trending

OBLITERATUS 发布了经过修改的 27B Qwen3.6 检查点,通过源绑定消融技术消除了拒绝行为,保留了能力并支持无审查的本地使用。公开基准测试显示高非拒绝率,同时保持了 MMLU-Pro 分数。