保范Abliteration应用于Qwen3.6-35B-A3B:0%拒绝率,基准测试性能完整,开源数据集

Reddit r/LocalLLaMA 论文

摘要

对Qwen3.6-35B-A3B应用保范Abliteration技术,实现0%拒绝率,基准测试性能保持不变,并发布了开源数据集。

暂无内容
查看原文

相似文章

OBLITERATUS/Qwen3.6-27B-OBLITERATED

Hugging Face Models Trending

OBLITERATUS 发布了经过修改的 27B Qwen3.6 检查点,通过源绑定消融技术消除了拒绝行为,保留了能力并支持无审查的本地使用。公开基准测试显示高非拒绝率,同时保持了 MMLU-Pro 分数。

Qwen 3.6 27b Abliterated (apostate)

Reddit r/LocalLLaMA

用户发布了Apostate,这是Qwen 3.6 27B的去安全对齐版本,将安全对齐拒绝率从92%降低到7.6%,同时能力损失极小(KL 0.120)。