@Tono_Ken3: 我注意到可能有另一个人也意识到,在实际工作中 gemma-4-12b 能够与 qwen3.6-35b 相媲美。是的……
摘要
一条推文指出,经过 abliterated 处理、NVFP4 量化的 Gemma-4-12B 模型(7.7 GB)在实际任务中能够与 Qwen 3.6-35B 相媲美,同时在 Blackwell GPU 上运行快速,展现了显著的效率提升。
查看缓存全文
缓存时间: 2026/06/15 00:54
我注意到,可能还有另一个人也发现 gemma-4-12b 在实际工作中能与 qwen3.6-35b 一较高下。没错,12b 确实能处理实际工作,而且速度很快!https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16…
sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16 · Hugging Face
来源:https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16
https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#huihui-gemma-4-12b-it-abliterated-nvfp4a16Huihui-gemma-4-12B-it-abliterated-NVFP4A16
huihui-ai/Huihui-gemma-4-12B-it-abliterated (https://huggingface.co/huihui-ai/Huihui-gemma-4-12B-it-abliterated) 的 NVFP4 (W4A16) 量化版本——即经过 abliterated(去审查)的 Gemma 4 12B unified 模型(文本 + 视觉 + 音频)。
24 GB → 7.7 GB。 可在单块 16 GB Blackwell GPU 上运行,或跨多块 GPU 分片以获得更高吞吐量。最高可达 118 tok/s 单流(TP=4 + MTP 推测解码)和 约 1117 tok/s 聚合吞吐量。
基础模型 huihui-ai/Huihui-gemma-4-12B-it-abliterated (https://huggingface.co/huihui-ai/Huihui-gemma-4-12B-it-abliterated)(对 google/gemma-4-12B-it 进行了 abliterated)架构 Gemma4UnifiedForConditionalGeneration——12B 密集模型,48 层,131K 上下文量化方式 NVFP4A16——权重为 FP4(group 16,FP8 scales),激活值为 BF16****格式 compressed-tensors/nvfp4-pack-quantized(原生 vLLM 支持)工具 llm-compressor (https://github.com/vllm-project/llm-compressor)大小 7.7 GB · 需要 NVIDIA Blackwell (SM120)
仅权重量化的 FP4 (W4A16) 保持激活值为 BF16,因此在完整 W4A4 NVFP4 在此架构上失效的情况下,本模型依然稳健。
https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#quickstart快速开始
需要Blackwell GPU(SM120 / RTX 50 系列 / GB10 / B100/B200)、带有 NVIDIA 运行时的 Docker 以及 hf CLI。Gemma 4 unified 是全新模型——你需要 vLLM nightly 版本(已发布版本 ≤ 0.22.1 缺少 Gemma4Unified 类)。
# 1) 下载此模型 (7.7 GB)。如需推测解码,还需下载 0.4B MTP draft 模型。
hf download sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16 --local-dir ./model
hf download google/gemma-4-12B-it-assistant --local-dir ./draft # 可选,用于推测解码
# 2a) 最简单——单 GPU,无推测解码
docker run --rm --gpus '"device=0"' --ipc=host --shm-size 16gb -p 8000:8000 \
-v $PWD/model:/model:ro \
vllm/vllm-openai:nightly \
--model /model --served-model-name gemma4-12b --max-model-len 65536 \
--gpu-memory-utilization 0.92 --trust-remote-code
https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#multi-gpu–read-this-if-your-box-has-no-nvlink多 GPU——如果你的机器没有 NVLink,请阅读此处
在消费级/入门级 Blackwell(例如 RTX PRO 2000)上,通过普通 PCIe 连接时,GPU P2P 无法正常工作,vLLM 的张量并行(tensor-parallel)会卡住,除非你同时禁用 NCCL P2P 和 vLLM 的自定义 all-reduce:
docker run --rm --gpus '"device=0,1,2,3"' --ipc=host --shm-size 16gb -p 8000:8000 \
-e NCCL_P2P_DISABLE=1 \ # <-- 不设置此选项,会在 NCCL 初始化时卡住
-v $PWD/model:/model:ro \
vllm/vllm-openai:nightly \
--model /model --served-model-name gemma4-12b \
--tensor-parallel-size 4 \
--disable-custom-all-reduce \ # <-- 不设置此选项,前向传播会死锁
--max-model-len 65536 --gpu-memory-utilization 0.85 --trust-remote-code
https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#maximum-interactive-speed–tp4–mtp-speculative-decode最高交互速度——TP=4 + MTP 推测解码
Google 提供了一个 0.4B 的 MTP draft 模型(google/gemma-4-12B-it-assistant)。它能将单流吞吐量提升近一倍(无损——目标模型会验证每个 token)。请使用 num_speculative_tokens: 3(稳定最优值;k≥5 会导致接受率下降)和 --kv-cache-dtype fp8(NVFP4 KV 缓存会破坏 draft 模型的接受率):
docker run --rm --gpus '"device=0,1,2,3"' --ipc=host --shm-size 16gb -p 8000:8000 \
-e NCCL_P2P_DISABLE=1 \
-v $PWD/model:/model:ro -v $PWD/draft:/draft:ro \
vllm/vllm-openai:nightly \
--model /model --served-model-name gemma4-12b \
--tensor-parallel-size 4 --disable-custom-all-reduce \
--kv-cache-dtype fp8 \
--speculative-config '{"method":"mtp","model":"/draft","num_speculative_tokens":3}' \
--max-model-len 65536 --gpu-memory-utilization 0.85 --trust-remote-code
测试一下:
curl -s localhost:8000/v1/chat/completions -H 'Content-Type: application/json' -d \
'{"model":"gemma4-12b","messages":[{"role":"user","content":"用一句话解释 CAP 定理。"}]}'
https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#flag-cheat-sheet参数速查表
| 标志 / 环境变量 | 使用时机 | 原因 |
|---|---|---|
vllm/vllm-openai:nightly | 始终 | 只有 nightly 版本注册了 Gemma4UnifiedForConditionalGeneration |
--trust-remote-code | 始终 | 新架构 |
NCCL_P2P_DISABLE=1 (环境变量) | TP > 1 且无 NVLink | 否则会在 NCCL 初始化时卡住 |
--disable-custom-all-reduce | TP > 1 且无 NVLink | 否则前向传播会死锁 |
--ipc=host --shm-size 16gb | TP > 1 (Docker) | host-path NCCL 需要共享内存 |
--speculative-config '{"method":"mtp",...,"num_speculative_tokens":3}' | 交互式场景 | 单流速度提升约 1.6–1.7 倍 |
--kv-cache-dtype fp8 | 搭配推测解码 | nvfp4 KV 会破坏 draft 接受率 |
--max-num-seqs 4 (+ --gpu-memory-utilization 0.95) | 单 GPU,长上下文 | 为最多 -c 32768 释放 KV 空间 |
https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#benchmarks基准测试
在 4× RTX PRO 2000 Blackwell(16 GB, SM120, 288 GB/s, PCIe — 无 NVLink) 上测量,TP=4,-c 65536。
单流解码(交互式)—— TP 扫描,1 请求 × 512 token:
| TP | GPU数 | 无推测解码 | + MTP (k=3) | MTP 增益 |
|---|---|---|---|---|
| 1 | 1 | 30.5 | 55.0 | 1.80× |
| 2 | 2 | 53.2 | 94.8 | 1.78× |
| 4 | 4 | 73.3 | 118.5 | 1.62× |
(TP=4 + MTP 在 k=4 时峰值可达 121.0,但 k=3 是稳定最优值。)MTP 在每个 TP 配置下都能稳定提升 约 1.6–1.8 倍。在此无 NVLink 的机器上(主机内存 all-reduce),TP 扩展呈亚线性。请根据你的资源选择:
| 目标 | 配置 | 单流速度 | 释放的 GPU 数 |
|---|---|---|---|
| 低功耗,1 GPU 驻留 | TP=1 + MTP | 55 | 5 |
| 平衡型 | TP=2 + MTP | 95 | 4 |
| 最快交互速度 | TP=4 + MTP | 118 | 2 |
聚合吞吐量(并发扫描,无推测解码):
| 并发数 | 1 | 2 | 4 | 8 | 16 | 32 |
|---|---|---|---|---|---|---|
| tok/s(-c 65536) | 73 | 145 | 274 | 487 | 796 | 1117 |
| tok/s(-c 131072) | 74 | 145 | 275 | 498 | 792 | 1100 |
64K 和 128K 上下文解码性能相同(滑动窗口 KV)。规则: 低并发(≤8)时使用 MTP 推测解码;高并发批量服务时关闭它(当批次饱和时,它反而会降低吞吐量)。
https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#quality–measured-vs-bf16-base-and-an-fp8-build-same-huihui-base质量评估——与 BF16 基础模型及 FP8 构建版本(同一 huihui 基础)的对比
在英文 / 繁体中文 / 日语 / 代码 / 事实 / 推理陷阱上进行了贪婪式并排测试:
- 标准任务:完全一致。 事实(切尔诺贝利:1986 年 4 月,4 号反应堆)、繁体中文和日语解释、
17×23−100 = 291、60 km / 45 min = 80 km/h、代码——NVFP4 = FP8 = BF16 基础模型,无退化、无漂移。 - 困难推理陷阱(测试了 7 个):存在少量但真实的 W4A16 代价。 FP8 在基础模型能答对的每个陷阱上都与 BF16 基础模型一致;NVFP4 在大约 7 个中错了 1 个(它在一个 Barbara 类型的三段论中回答了“是”,而正确答案是“否”,另有一个次要细节错误)。有一个年龄文字推理题,连 BF16 基础模型都答错——这是模型本身的局限,而非量化伪影。
结论: 相比 FP8,体积减半且速度更快,在标准任务上表现一致。如果需要最高的推理保真度,请选择 FP8;如果追求最佳体积/速度比,且可接受约 85–90% 的推理保真度,请选择此 NVFP4A16 版本——它是大多数本地代理和聊天工作负载的推荐默认选项。
https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#notes注意事项
- 已去审查(uncensored)。请负责任地使用。
- NVFP4 是 Blackwell 专属,无法在 Ampere/Hopper 上运行。
- 多模态视觉/音频嵌入器保持 BF16 格式。
https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#credits致谢
- 基础模型 & 去审查: huihui-ai (https://huggingface.co/huihui-ai)
- 原始模型: Google DeepMind (https://huggingface.co/google/gemma-4-12B-it)(Gemma 4)
- 量化及服务方案: Lna-Lab · 工具: llm-compressor (https://github.com/vllm-project/llm-compressor) / vLLM (https://github.com/vllm-project/vllm)
https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#support-the-base-model-author-huihui-ai支持基础模型作者 (huihui-ai)
如果你觉得去审查后的基础模型有用,请支持 huihui-ai:
- Ko-fi: https://ko-fi.com/huihuiai
- 比特币:
bc1qqnkhuchxw0zqjh2ku3lu4hq45hc6gy84uk70ge
Crown 👑 (@barackomaba): 我看到了曙光。Gemma 模型实际上非常出色。
12b 版本在 Hermes 任务上的表现可能比 qwen3.6 35b 还要好。
我的 AMD Strix Halo 在 26b QAT MTP 配置下达到了 115 TPS+
新的质量测试已运行: https://t.co/UcZiLjFDcf https://t.co/Has9oJrz7Y
@usr_bin_roygbiv
相似文章
通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it
Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd
gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比:Qwen 在 5/8 项基准测试中击败 gemma,虽体积更小但总体胜出
Qwen3.5-9B 在 8 项基准测试中的 5 项中优于 gemma-4-12b-it,尽管模型体积更小。gemma 仅在编程能力上略胜一筹。
Gemma 4 31B 的能力让我惊讶
一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。
Qwen3.6-35B 与 Gemma4-26B 在 7900 XTX 上的对比
一项详细的基准测试对比了 Radeon 7900 XTX 上的 Qwen3.6-35B 和 Gemma4-26B,结果显示尽管 Gemma 的 token 生成速度较慢,但端到端快了约 20%,原因是 Qwen 因内部推理生成了约两倍的 token。文章建议:在吞吐量受限的批量任务中使用 Qwen,在延迟敏感的单次请求中使用 Gemma。
Qwen 3.6 35B A3B 的热度绝非虚名!
作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。