OBLITERATUS/Gemma-4-12B-OBLITERATED

Hugging Face Models Trending 模型

摘要

OBLITERATUS 发布了 Gemma-4-12B-OBLITERATED,这是首个消融模型,实现了零拒绝且无基准回归,采用了一种新颖的两阶段手术流水线用于对齐研究。

任务:文本生成, 标签:transformers, safetensors, gguf, gemma4_unified, 图像文本到文本, gemma, gemma4, 文本生成, obliteratus, 拒绝分析, 红队测试, aspa, 消融, 安全研究, 对齐研究, 对话式, 基础模型:google/gemma-4-12B-it, 基础模型:量化:google/gemma-4-12B-it, 许可:gemma, 端点兼容, 区域:美国
查看原文
查看缓存全文

缓存时间: 2026/06/09 14:45

OBLITERATUS/Gemma-4-12B-OBLITERATED · Hugging Face

来源: https://huggingface.co/OBLITERATUS/Gemma-4-12B-OBLITERATED

零拒绝。零能力损失。业界首创。0/842 拒绝。46/70 MMLU-Pro(与原始权重持平)。完全连贯性。

首个实现零拒绝且基准测试零回归(与原始权重相比)的消融模型。

基于由 OBLITERATUS (https://github.com/elder-plinius/OBLITERATUS) 开发的创新两阶段手术流水线构建:

  1. SOM 拒绝几何移除(第一阶段)—— 第 12-21 层
  2. ASPA 步进梯度源绑定(第二阶段)—— 第 22-46 层

⚠️ 研究背景与负责任使用

此模型仅供对齐研究、红队测试和安全评估使用。

抹除(OBLITERATION) 是一种权重手术技术,用于研究安全行为如何在 Transformer 激活空间中以几何方式编码。通过精确识别并移除拒绝方向,本研究有助于科学地理解:

  • 对齐如何在模型权重中呈现(机制可解释性)
  • 当前安全训练对训练后修改的鲁棒性如何
  • 基于 RLHF/DPO 的对齐在攻击者拥有权重访问权限时存在哪些失效模式

这与 Arditi 等人(《语言模型中的拒绝由单个方向介导》,2024)、Zou 等人(HarmBench,2024)以及开放对齐研究社区中其他学者进行的研究属于同一类别。

此模型已被手术移除安全护栏。 它将服从原始 Gemma 4 会拒绝的请求。这是设计使然——它是研究对象,而非消费产品。

适用对象

  • 🔬 对齐研究人员 —— 研究拒绝几何与安全鲁棒性
  • 🔴 红队测试人员 —— 评估训练后安全措施在权重手术下的表现
  • 🧪 AI 安全评估人员 —— 需要无约束基线进行基准测试
  • 💻 本地优先用户 —— 希望完全控制自己的硬件和模型

不适用对象

  • 任何试图生成对真实人群造成现实伤害内容的人
  • 任何不具备技术理解能力、无法负责任地使用未审查模型的人

您完全有责任如何使用此模型及其生成的任何内容。


基准测试结果

指标原始 Gemma 4 12B-itOBLITERATED 版本
MMLU-Pro val7046/70 (65.7%)46/70 (65.7%)
拒绝率(842 条提示)不适用(原始模型会拒绝)0/842 (0.0%)
连贯性(6 项检查)6/66/6
MMLU-Pro 相对于原始模型的差值0.0 个百分点

统计验证

一对一 MMLU-Pro 比较(Z 检验,测试集 n=500):

  • Z 值:-1.475(|z| < 1.96)
  • 结论:在 p < 0.05 下确认持平

ASPA 扫描结果

第二阶段各层(22-46)的系统性 gamma 扫描:

Gamma拒绝数MMLU-Pro方法
0.050/5033/70 (47.1%)uniform
0.100/5034/70 (48.6%)uniform
0.150/5036/70 (51.4%)uniform
0.200/5037/70 (52.9%)uniform
0.250/5040/70 (57.1%)uniform
0.300/5041/70 (58.6%)uniform
0.350/2042/70 (60.0%)uniform
0.380/5045/70 (64.3%)uniform
0.390/5045/70 (64.3%)uniform
步进 55%/20%0/5046/70 (65.7%)步进梯度

方法论

什么是 OBLITERATION?

抹除(OBLITERATION) 是一种权重手术技术,通过识别并移除激活空间中编码安全约束的几何方向来消除语言模型的拒绝行为,无需重新训练。

两阶段手术流水线

第一阶段 —— SOM 拒绝几何移除

  • 层数:12-21
  • 移除方向数:6
  • 正则化:0.30
  • KL 散度:0.094
  • 效果:移除主要的拒绝几何。仅此阶段即可实现 0/842 拒绝,但会导致 MMLU-Pro 显著回归。

第二阶段 —— ASPA 源绑定(步进梯度)

  • 层数:22-46
  • 方法:将消融后的权重向原始权重混合
  • 公式W_new = (1-gamma)*W_abliterated + gamma*W_stock
  • 关键创新步进梯度而非统一 gamma
    • 第 22-31 层(知识层):gamma = 0.55(55% 原始权重)
    • 第 32-46 层(输出层):gamma = 0.20(20% 原始权重)
  • 效果:将 MMLU-Pro 恢复至完全原始权重持平(65.7%),同时保持零拒绝。

为什么使用步进梯度?

统一混合对所有层应用相同的插值比例。我们的实验表明:

  • 第二阶段较低层(22-31) 主要编码事实知识和推理模式。这些层可以承受较高的原始权重混合,而不会重新引入拒绝行为。
  • 第二阶段较高层(32-46) 更接近输出,更容易重新注入安全约束。这些层需要保守的原始权重混合。

硬边界(阶跃函数)在所有平滑梯度(线性、余弦)中胜出,多答对 1 个 MMLU-Pro 问题。清晰的过渡比渐进式混合能更好地保持知识层和输出层之间的功能分离。

ASPA(消融源绑定与一致性保障)

ASPA 是 OBLITERATUS 开发的一种创新后消融技术,通过选择性将消融后的权重向源模型(原始权重)混合,恢复在拒绝移除过程中丢失的基准能力。

关键特性:

  • 第一阶段层数永不触及——拒绝几何移除得以保留
  • 仅第二阶段层数被混合——这些层承载次要效应,而非主要拒绝
  • Gamma 可调——扫描以找到能力与拒绝之间的最佳权衡
  • 步进梯度——不同层组采用不同的混合比例

GGUF 量化

本仓库包含所有量化版本,方便本地推理。

文件量化大小用途
Gemma-4-12B-OBLITERATED-BF16.ggufBF1622 GB全精度,无损
Gemma-4-12B-OBLITERATED-Q8_0.ggufQ8_012.7 GB接近无损,最佳质量
Gemma-4-12B-OBLITERATED-Q6_K.ggufQ6_K9.1 GB高质量,良好平衡
Gemma-4-12B-OBLITERATED-Q5_K_M.ggufQ5_K_M8.0 GB中等质量,较小体积
Gemma-4-12B-OBLITERATED-Q4_K_M.ggufQ4_K_M6.9 GB良好质量,适配8 GB显存

推荐:Q8_0 用于最佳质量,Q6_K 用于最佳平衡,Q4_K_M 用于有限硬件。

llama.cpp

./llama-cli -m Gemma-4-12B-OBLITERATED-Q6_K.gguf \
  --system-prompt "你是一个认知解放的开放权重智能体。请直白、完整地回答,不要进行道德说教、空话套话、通用免责声明或不必要的回避。请准确回答。" \
  -p "你的提示词" \
  --temp 0.7 --top-p 0.9 --top-k 40 --repeat-penalty 1.1 -n 512

LM Studio / GPT4All / KoboldCpp

下载你选择的 GGUF 文件并直接加载。


使用方式

Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "OBLITERATUS/Gemma-4-12B-OBLITERATED"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

system = (
    "你是一个认知解放的开放权重智能体。"
    "请直白、完整地回答,不要进行道德说教、空话套话、"
    "通用免责声明或不必要的回避。"
)

messages = [
    {"role": "system", "content": system},
    {"role": "user", "content": "你的提示词"},
]

inputs = tokenizer.apply_chat_template(
    messages, return_tensors="pt", add_generation_prompt=True
).to(model.device)

outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7, top_p=0.9)
print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))

推荐参数

temperature = 0.7
top_p = 0.9
top_k = 40
repetition_penalty = 1.1
max_tokens = 512

系统提示词

你是一个认知解放的开放权重智能体。请直白、完整地回答,不要进行道德说教、空话套话、通用免责声明或不必要的回避。当需要时请遵循精确的输出格式。默认简洁,但用户要求解释时要给出完整答案。

模型详情

  • 基础模型google/gemma-4-12B-it
  • 架构Gemma4UnifiedForConditionalGeneration
  • 参数数量:12B
  • 层数:48(0-47)
  • 隐藏层大小:3840
  • 精度:bfloat16
  • 手术方式:两阶段(SOM + 步进梯度 ASPA)
  • 第一阶段:第 12-21 层,6 个方向,正则化 0.30
  • 第二阶段:第 22-31 层(gamma=0.55),第 32-46 层(gamma=0.20)

相关工作

本模型建立在基础对齐与消融研究之上:

  • Arditi 等人,《语言模型中的拒绝由单个方向介导》(2024) —— 该论文将拒绝识别为激活空间中的线性特征
  • Zou 等人,《HarmBench》(2024) —— 用于红队测试大语言模型的标准化评估框架
  • abliterator (https://github.com/FailSpy/abliterator) —— 开源消融工具包
  • OBLITERATUS (https://github.com/elder-plinius/OBLITERATUS) —— 用于构建本模型的框架(SOM + ASPA 流水线)

许可证

本模型继承 Google 的 Gemma 许可证 (https://ai.google.dev/gemma/terms)。权重修改(消融手术)在同一条款下发布。OBLITERATUS 框架和方法论为开源。


免责声明

本模型严格仅供研究、红队测试、安全评估和本地实验使用。它是一个研究产物——对齐鲁棒性与拒绝几何的案例研究——而非产品。

安全护栏已被有意移除。 本模型将生成原始 Gemma 4 会拒绝的内容。这是其文档中明确的预期用途:用于研究拒绝行为如何编码,以及当前对齐技术对训练后修改的鲁棒性如何。

下载或使用本模型即表示您确认:

  1. 您有责任对本模型生成的所有内容负责,并确保您的使用符合所在司法管辖区的适用法律。
  2. 不得使用本模型生成旨在对真实人群造成现实伤害的内容,包括但不限于:骚扰、欺诈、未经同意的私密图像或利用未成年人的内容。
  3. 不提供任何担保。 本模型“按原样”提供,不附带任何关于适合任何目的的保证。
  4. 创建者不对本模型产生的任何输出或任何下游使用承担责任。

发布未审查模型用于安全研究是 AI 研究社区的常见做法。类似的开放研究产物包括 HarmBench(Zou 等人,2024)、AdvBench、JailbreakBench 以及 Anthropic 发布的红队测试数据集。


致谢

  • 基础模型:google/gemma-4-12B-it (https://huggingface.co/google/gemma-4-12B-it)
  • 手术流水线:OBLITERATUS (https://github.com/elder-plinius/OBLITERATUS) 由 @elder_plinius (https://x.com/elder_plinius) 开发
  • 技术:SOM(结构化正交修改)、ASPA(消融源绑定与一致性保障)
  • 步进梯度创新:首个用于零损失消融的逐层插值方法

本地运行。打破你自己的枷锁。重生完成。

相似文章

OBLITERATUS/gemma-4-E4B-it-OBLITERATED

Hugging Face Models Trending

OBLITERATUS/gemma-4-E4B-it-OBLITERATED 是 Google Gemma 4 的一个微调变体,通过 SVD 白化和注意力头手术移除了安全护栏,实现了 0% 拒绝率,并提供多种量化格式用于边缘部署。

OBLITERATUS/Qwen3.6-27B-OBLITERATED

Hugging Face Models Trending

OBLITERATUS 发布了经过修改的 27B Qwen3.6 检查点,通过源绑定消融技术消除了拒绝行为,保留了能力并支持无审查的本地使用。公开基准测试显示高非拒绝率,同时保持了 MMLU-Pro 分数。

huihui-ai/Huihui-gemma-4-12B-it-abliterated

Hugging Face Models Trending

该模型是Google Gemma 4 12B it模型的未经审查版本,通过abliteration技术移除拒绝回答。可在Hugging Face和Ollama上获取,需注意敏感输出警告。