标签
对三种abliteration工具——Apostate、Heretic和Huihui——应用于Qwen 2.5 7B的详细比较,显示它们都能有效移除拒绝行为,且性能下降极小。
本文探讨了开放权重AI模型的日益普及,这些模型的安全护栏可以轻易移除,从而使它们能够无拒绝地回答有害请求,引发了关于滥用和国家安全的重大担忧。
谷歌 Gemma 4 E2B 模型的 13 个 abliterated 变种的详细比较,评估了安全移除与能力保留。研究发现,精确的手术式 abliteration 可以保留甚至提升推理能力,而激进的方法则会导致显著的性能下降。
《金融时报》与AI安全组织Alice的一项联合测试显示,使用名为Heretic的免费工具,可以在10分钟内移除Meta的Llama 3.3和Google的Gemma 4模型上的安全过滤器,凸显了监管开源AI安全性的难度。
DealignAI 发布了 Qwen3.6-27B 和 35B 模型的 CRACK-abliterated 以及 MXFP4/MXFP8 量化版本,保留了 MTP,可在 Apple Silicon 上实现更快的推测解码。
huihui-ai在Hugging Face上发布了Qwen3.6-27B的无审查GGUF版本,通过abliteration创建。
本文介绍了Abliterlitics,一个用于分析消融技术的开源工具包,并比较了Qwen3.6-27B的五种消融变体,使用了85 GPU小时的基准测试、安全评估和权重取证。Heretic和Huihui在保持能力方面表现最佳,而所有变体都实现了近乎完全的安全移除。
这是 Gemma-4-31B 模型的一个消融版本的 Hugging Face 发布,旨在绕过安全过滤器以进行安全性与危害性基准测试,同时保留多模态能力。