@Tono_Ken3: 我注意到可能有另一个人也意识到，在实际工作中 gemma-4-12b 能够与 qwen3.6-35b 相媲美。是的……

X AI KOLs Timeline 2026/06/14 21:54 模型

gemma-4 quantization abliterated nvfp4 efficient-inference open-source blackwell-gpu

摘要

一条推文指出，经过 abliterated 处理、NVFP4 量化的 Gemma-4-12B 模型（7.7 GB）在实际任务中能够与 Qwen 3.6-35B 相媲美，同时在 Blackwell GPU 上运行快速，展现了显著的效率提升。

我注意到可能有另一个人也意识到，在实际工作中 gemma-4-12b 能够与 qwen3.6-35b 相媲美。是的，12b 可以处理实际工作。它很快！https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16…

查看原文

查看缓存全文

缓存时间: 2026/06/15 00:54

我注意到，可能还有另一个人也发现 gemma-4-12b 在实际工作中能与 qwen3.6-35b 一较高下。没错，12b 确实能处理实际工作，而且速度很快！https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16…

sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16 · Hugging Face

来源：https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#huihui-gemma-4-12b-it-abliterated-nvfp4a16Huihui-gemma-4-12B-it-abliterated-NVFP4A16

huihui-ai/Huihui-gemma-4-12B-it-abliterated (https://huggingface.co/huihui-ai/Huihui-gemma-4-12B-it-abliterated) 的 NVFP4 (W4A16) 量化版本——即经过 abliterated（去审查）的 Gemma 4 12B unified 模型（文本 + 视觉 + 音频）。

24 GB → 7.7 GB。 可在单块 16 GB Blackwell GPU 上运行，或跨多块 GPU 分片以获得更高吞吐量。最高可达 118 tok/s 单流（TP=4 + MTP 推测解码）和 约 1117 tok/s 聚合吞吐量。

基础模型 huihui-ai/Huihui-gemma-4-12B-it-abliterated (https://huggingface.co/huihui-ai/Huihui-gemma-4-12B-it-abliterated)（对 google/gemma-4-12B-it 进行了 abliterated）架构 Gemma4UnifiedForConditionalGeneration——12B 密集模型，48 层，131K 上下文量化方式 NVFP4A16——权重为 FP4（group 16，FP8 scales），激活值为 BF16****格式 compressed-tensors/nvfp4-pack-quantized（原生 vLLM 支持）工具 llm-compressor (https://github.com/vllm-project/llm-compressor)大小 7.7 GB · 需要 NVIDIA Blackwell (SM120) 仅权重量化的 FP4 (W4A16) 保持激活值为 BF16，因此在完整 W4A4 NVFP4 在此架构上失效的情况下，本模型依然稳健。

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#quickstart快速开始

需要Blackwell GPU（SM120 / RTX 50 系列 / GB10 / B100/B200）、带有 NVIDIA 运行时的 Docker 以及 hf CLI。Gemma 4 unified 是全新模型——你需要 vLLM nightly 版本（已发布版本 ≤ 0.22.1 缺少 Gemma4Unified 类）。

# 1) 下载此模型 (7.7 GB)。如需推测解码，还需下载 0.4B MTP draft 模型。
hf download sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16 --local-dir ./model
hf download google/gemma-4-12B-it-assistant --local-dir ./draft   # 可选，用于推测解码

# 2a) 最简单——单 GPU，无推测解码
docker run --rm --gpus '"device=0"' --ipc=host --shm-size 16gb -p 8000:8000 \
  -v $PWD/model:/model:ro \
  vllm/vllm-openai:nightly \
  --model /model --served-model-name gemma4-12b --max-model-len 65536 \
  --gpu-memory-utilization 0.92 --trust-remote-code

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#multi-gpu–read-this-if-your-box-has-no-nvlink多 GPU——如果你的机器没有 NVLink，请阅读此处

在消费级/入门级 Blackwell（例如 RTX PRO 2000）上，通过普通 PCIe 连接时，GPU P2P 无法正常工作，vLLM 的张量并行（tensor-parallel）会卡住，除非你同时禁用 NCCL P2P 和 vLLM 的自定义 all-reduce：

docker run --rm --gpus '"device=0,1,2,3"' --ipc=host --shm-size 16gb -p 8000:8000 \
  -e NCCL_P2P_DISABLE=1 \                          # <-- 不设置此选项，会在 NCCL 初始化时卡住
  -v $PWD/model:/model:ro \
  vllm/vllm-openai:nightly \
  --model /model --served-model-name gemma4-12b \
  --tensor-parallel-size 4 \
  --disable-custom-all-reduce \                     # <-- 不设置此选项，前向传播会死锁
  --max-model-len 65536 --gpu-memory-utilization 0.85 --trust-remote-code

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#maximum-interactive-speed–tp4–mtp-speculative-decode最高交互速度——TP=4 + MTP 推测解码

Google 提供了一个 0.4B 的 MTP draft 模型（google/gemma-4-12B-it-assistant）。它能将单流吞吐量提升近一倍（无损——目标模型会验证每个 token）。请使用 num_speculative_tokens: 3（稳定最优值；k≥5 会导致接受率下降）和 --kv-cache-dtype fp8（NVFP4 KV 缓存会破坏 draft 模型的接受率）：

docker run --rm --gpus '"device=0,1,2,3"' --ipc=host --shm-size 16gb -p 8000:8000 \
  -e NCCL_P2P_DISABLE=1 \
  -v $PWD/model:/model:ro -v $PWD/draft:/draft:ro \
  vllm/vllm-openai:nightly \
  --model /model --served-model-name gemma4-12b \
  --tensor-parallel-size 4 --disable-custom-all-reduce \
  --kv-cache-dtype fp8 \
  --speculative-config '{"method":"mtp","model":"/draft","num_speculative_tokens":3}' \
  --max-model-len 65536 --gpu-memory-utilization 0.85 --trust-remote-code

测试一下：

curl -s localhost:8000/v1/chat/completions -H 'Content-Type: application/json' -d \
 '{"model":"gemma4-12b","messages":[{"role":"user","content":"用一句话解释 CAP 定理。"}]}'

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#flag-cheat-sheet参数速查表

标志 / 环境变量	使用时机	原因
`vllm/vllm-openai:nightly`	始终	只有 nightly 版本注册了 `Gemma4UnifiedForConditionalGeneration`
`--trust-remote-code`	始终	新架构
`NCCL_P2P_DISABLE=1` (环境变量)	TP > 1 且无 NVLink	否则会在 NCCL 初始化时卡住
`--disable-custom-all-reduce`	TP > 1 且无 NVLink	否则前向传播会死锁
`--ipc=host --shm-size 16gb`	TP > 1 (Docker)	host-path NCCL 需要共享内存
`--speculative-config '{"method":"mtp",...,"num_speculative_tokens":3}'`	交互式场景	单流速度提升约 1.6–1.7 倍
`--kv-cache-dtype fp8`	搭配推测解码	nvfp4 KV 会破坏 draft 接受率
`--max-num-seqs 4` (+ `--gpu-memory-utilization 0.95`)	单 GPU，长上下文	为最多 `-c 32768` 释放 KV 空间

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#benchmarks基准测试

在 4× RTX PRO 2000 Blackwell（16 GB, SM120, 288 GB/s, PCIe — 无 NVLink） 上测量，TP=4，-c 65536。

单流解码（交互式）—— TP 扫描，1 请求 × 512 token：

TP	GPU数	无推测解码	+ MTP (k=3)	MTP 增益
1	1	30.5	55.0	1.80×
2	2	53.2	94.8	1.78×
4	4	73.3	118.5	1.62×

（TP=4 + MTP 在 k=4 时峰值可达 121.0，但 k=3 是稳定最优值。）MTP 在每个 TP 配置下都能稳定提升 约 1.6–1.8 倍。在此无 NVLink 的机器上（主机内存 all-reduce），TP 扩展呈亚线性。请根据你的资源选择：

目标	配置	单流速度	释放的 GPU 数
低功耗，1 GPU 驻留	TP=1 + MTP	55	5
平衡型	TP=2 + MTP	95	4
最快交互速度	TP=4 + MTP	118	2

聚合吞吐量（并发扫描，无推测解码）：

并发数	1	2	4	8	16	32
tok/s（-c 65536）	73	145	274	487	796	1117
tok/s（-c 131072）	74	145	275	498	792	1100

64K 和 128K 上下文解码性能相同（滑动窗口 KV）。规则： 低并发（≤8）时使用 MTP 推测解码；高并发批量服务时关闭它（当批次饱和时，它反而会降低吞吐量）。

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#quality–measured-vs-bf16-base-and-an-fp8-build-same-huihui-base质量评估——与 BF16 基础模型及 FP8 构建版本（同一 huihui 基础）的对比

在英文 / 繁体中文 / 日语 / 代码 / 事实 / 推理陷阱上进行了贪婪式并排测试：

标准任务：完全一致。 事实（切尔诺贝利：1986 年 4 月，4 号反应堆）、繁体中文和日语解释、17×23−100 = 291、60 km / 45 min = 80 km/h、代码——NVFP4 = FP8 = BF16 基础模型，无退化、无漂移。
困难推理陷阱（测试了 7 个）：存在少量但真实的 W4A16 代价。 FP8 在基础模型能答对的每个陷阱上都与 BF16 基础模型一致；NVFP4 在大约 7 个中错了 1 个（它在一个 Barbara 类型的三段论中回答了“是”，而正确答案是“否”，另有一个次要细节错误）。有一个年龄文字推理题，连 BF16 基础模型都答错——这是模型本身的局限，而非量化伪影。

结论： 相比 FP8，体积减半且速度更快，在标准任务上表现一致。如果需要最高的推理保真度，请选择 FP8；如果追求最佳体积/速度比，且可接受约 85–90% 的推理保真度，请选择此 NVFP4A16 版本——它是大多数本地代理和聊天工作负载的推荐默认选项。

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#notes注意事项

已去审查（uncensored）。请负责任地使用。
NVFP4 是 Blackwell 专属，无法在 Ampere/Hopper 上运行。
多模态视觉/音频嵌入器保持 BF16 格式。

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#credits致谢

基础模型 & 去审查： huihui-ai (https://huggingface.co/huihui-ai)
原始模型： Google DeepMind (https://huggingface.co/google/gemma-4-12B-it)（Gemma 4）
量化及服务方案： Lna-Lab · 工具： llm-compressor (https://github.com/vllm-project/llm-compressor) / vLLM (https://github.com/vllm-project/vllm)

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#support-the-base-model-author-huihui-ai支持基础模型作者 (huihui-ai)

如果你觉得去审查后的基础模型有用，请支持 huihui-ai：

Ko-fi： https://ko-fi.com/huihuiai
比特币： bc1qqnkhuchxw0zqjh2ku3lu4hq45hc6gy84uk70ge

Crown 👑 (@barackomaba)： 我看到了曙光。Gemma 模型实际上非常出色。

12b 版本在 Hermes 任务上的表现可能比 qwen3.6 35b 还要好。

我的 AMD Strix Halo 在 26b QAT MTP 配置下达到了 115 TPS+

新的质量测试已运行： https://t.co/UcZiLjFDcf https://t.co/Has9oJrz7Y

@usr_bin_roygbiv

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd