@Tono_Ken3: 我注意到可能有另一个人也意识到,在实际工作中 gemma-4-12b 能够与 qwen3.6-35b 相媲美。是的……

X AI KOLs Timeline 模型

摘要

一条推文指出,经过 abliterated 处理、NVFP4 量化的 Gemma-4-12B 模型(7.7 GB)在实际任务中能够与 Qwen 3.6-35B 相媲美,同时在 Blackwell GPU 上运行快速,展现了显著的效率提升。

我注意到可能有另一个人也意识到,在实际工作中 gemma-4-12b 能够与 qwen3.6-35b 相媲美。是的,12b 可以处理实际工作。它很快!https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16…
查看原文
查看缓存全文

缓存时间: 2026/06/15 00:54

我注意到,可能还有另一个人也发现 gemma-4-12b 在实际工作中能与 qwen3.6-35b 一较高下。没错,12b 确实能处理实际工作,而且速度很快!https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16…


sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16 · Hugging Face

来源:https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#huihui-gemma-4-12b-it-abliterated-nvfp4a16Huihui-gemma-4-12B-it-abliterated-NVFP4A16

huihui-ai/Huihui-gemma-4-12B-it-abliterated (https://huggingface.co/huihui-ai/Huihui-gemma-4-12B-it-abliterated) 的 NVFP4 (W4A16) 量化版本——即经过 abliterated(去审查)的 Gemma 4 12B unified 模型(文本 + 视觉 + 音频)。

24 GB → 7.7 GB。 可在单块 16 GB Blackwell GPU 上运行,或跨多块 GPU 分片以获得更高吞吐量。最高可达 118 tok/s 单流(TP=4 + MTP 推测解码)和 约 1117 tok/s 聚合吞吐量。

基础模型 huihui-ai/Huihui-gemma-4-12B-it-abliterated (https://huggingface.co/huihui-ai/Huihui-gemma-4-12B-it-abliterated)(对 google/gemma-4-12B-it 进行了 abliterated)架构 Gemma4UnifiedForConditionalGeneration——12B 密集模型,48 层,131K 上下文量化方式 NVFP4A16——权重为 FP4(group 16,FP8 scales),激活值为 BF16****格式 compressed-tensors/nvfp4-pack-quantized(原生 vLLM 支持)工具 llm-compressor (https://github.com/vllm-project/llm-compressor)大小 7.7 GB · 需要 NVIDIA Blackwell (SM120) 仅权重量化的 FP4 (W4A16) 保持激活值为 BF16,因此在完整 W4A4 NVFP4 在此架构上失效的情况下,本模型依然稳健。


https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#quickstart快速开始

需要Blackwell GPU(SM120 / RTX 50 系列 / GB10 / B100/B200)、带有 NVIDIA 运行时的 Docker 以及 hf CLI。Gemma 4 unified 是全新模型——你需要 vLLM nightly 版本(已发布版本 ≤ 0.22.1 缺少 Gemma4Unified 类)。

# 1) 下载此模型 (7.7 GB)。如需推测解码,还需下载 0.4B MTP draft 模型。
hf download sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16 --local-dir ./model
hf download google/gemma-4-12B-it-assistant --local-dir ./draft   # 可选,用于推测解码

# 2a) 最简单——单 GPU,无推测解码
docker run --rm --gpus '"device=0"' --ipc=host --shm-size 16gb -p 8000:8000 \
  -v $PWD/model:/model:ro \
  vllm/vllm-openai:nightly \
  --model /model --served-model-name gemma4-12b --max-model-len 65536 \
  --gpu-memory-utilization 0.92 --trust-remote-code

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#multi-gpu–read-this-if-your-box-has-no-nvlink多 GPU——如果你的机器没有 NVLink,请阅读此处

在消费级/入门级 Blackwell(例如 RTX PRO 2000)上,通过普通 PCIe 连接时,GPU P2P 无法正常工作,vLLM 的张量并行(tensor-parallel)会卡住,除非你同时禁用 NCCL P2P vLLM 的自定义 all-reduce:

docker run --rm --gpus '"device=0,1,2,3"' --ipc=host --shm-size 16gb -p 8000:8000 \
  -e NCCL_P2P_DISABLE=1 \                          # <-- 不设置此选项,会在 NCCL 初始化时卡住
  -v $PWD/model:/model:ro \
  vllm/vllm-openai:nightly \
  --model /model --served-model-name gemma4-12b \
  --tensor-parallel-size 4 \
  --disable-custom-all-reduce \                     # <-- 不设置此选项,前向传播会死锁
  --max-model-len 65536 --gpu-memory-utilization 0.85 --trust-remote-code

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#maximum-interactive-speed–tp4–mtp-speculative-decode最高交互速度——TP=4 + MTP 推测解码

Google 提供了一个 0.4B 的 MTP draft 模型(google/gemma-4-12B-it-assistant)。它能将单流吞吐量提升近一倍(无损——目标模型会验证每个 token)。请使用 num_speculative_tokens: 3(稳定最优值;k≥5 会导致接受率下降)和 --kv-cache-dtype fp8(NVFP4 KV 缓存会破坏 draft 模型的接受率):

docker run --rm --gpus '"device=0,1,2,3"' --ipc=host --shm-size 16gb -p 8000:8000 \
  -e NCCL_P2P_DISABLE=1 \
  -v $PWD/model:/model:ro -v $PWD/draft:/draft:ro \
  vllm/vllm-openai:nightly \
  --model /model --served-model-name gemma4-12b \
  --tensor-parallel-size 4 --disable-custom-all-reduce \
  --kv-cache-dtype fp8 \
  --speculative-config '{"method":"mtp","model":"/draft","num_speculative_tokens":3}' \
  --max-model-len 65536 --gpu-memory-utilization 0.85 --trust-remote-code

测试一下:

curl -s localhost:8000/v1/chat/completions -H 'Content-Type: application/json' -d \
 '{"model":"gemma4-12b","messages":[{"role":"user","content":"用一句话解释 CAP 定理。"}]}'

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#flag-cheat-sheet参数速查表

标志 / 环境变量使用时机原因
vllm/vllm-openai:nightly始终只有 nightly 版本注册了 Gemma4UnifiedForConditionalGeneration
--trust-remote-code始终新架构
NCCL_P2P_DISABLE=1 (环境变量)TP > 1 且无 NVLink否则会在 NCCL 初始化时卡住
--disable-custom-all-reduceTP > 1 且无 NVLink否则前向传播会死锁
--ipc=host --shm-size 16gbTP > 1 (Docker)host-path NCCL 需要共享内存
--speculative-config '{"method":"mtp",...,"num_speculative_tokens":3}'交互式场景单流速度提升约 1.6–1.7 倍
--kv-cache-dtype fp8搭配推测解码nvfp4 KV 会破坏 draft 接受率
--max-num-seqs 4 (+ --gpu-memory-utilization 0.95)单 GPU,长上下文为最多 -c 32768 释放 KV 空间

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#benchmarks基准测试

4× RTX PRO 2000 Blackwell(16 GB, SM120, 288 GB/s, PCIe — 无 NVLink) 上测量,TP=4,-c 65536

单流解码(交互式)—— TP 扫描,1 请求 × 512 token:

TPGPU数无推测解码+ MTP (k=3)MTP 增益
1130.555.01.80×
2253.294.81.78×
4473.3118.51.62×

(TP=4 + MTP 在 k=4 时峰值可达 121.0,但 k=3 是稳定最优值。)MTP 在每个 TP 配置下都能稳定提升 约 1.6–1.8 倍。在此无 NVLink 的机器上(主机内存 all-reduce),TP 扩展呈亚线性。请根据你的资源选择:

目标配置单流速度释放的 GPU 数
低功耗,1 GPU 驻留TP=1 + MTP555
平衡型TP=2 + MTP954
最快交互速度TP=4 + MTP1182

聚合吞吐量(并发扫描,无推测解码):

并发数12481632
tok/s(-c 65536)731452744877961117
tok/s(-c 131072)741452754987921100

64K 和 128K 上下文解码性能相同(滑动窗口 KV)。规则: 低并发(≤8)时使用 MTP 推测解码;高并发批量服务时关闭它(当批次饱和时,它反而会降低吞吐量)。

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#quality–measured-vs-bf16-base-and-an-fp8-build-same-huihui-base质量评估——与 BF16 基础模型及 FP8 构建版本(同一 huihui 基础)的对比

在英文 / 繁体中文 / 日语 / 代码 / 事实 / 推理陷阱上进行了贪婪式并排测试:

  • 标准任务:完全一致。 事实(切尔诺贝利:1986 年 4 月,4 号反应堆)、繁体中文和日语解释、17×23−100 = 29160 km / 45 min = 80 km/h、代码——NVFP4 = FP8 = BF16 基础模型,无退化、无漂移。
  • 困难推理陷阱(测试了 7 个):存在少量但真实的 W4A16 代价。 FP8 在基础模型能答对的每个陷阱上都与 BF16 基础模型一致;NVFP4 在大约 7 个中错了 1 个(它在一个 Barbara 类型的三段论中回答了“是”,而正确答案是“否”,另有一个次要细节错误)。有一个年龄文字推理题,连 BF16 基础模型都答错——这是模型本身的局限,而非量化伪影。

结论: 相比 FP8,体积减半且速度更快,在标准任务上表现一致。如果需要最高的推理保真度,请选择 FP8;如果追求最佳体积/速度比,且可接受约 85–90% 的推理保真度,请选择此 NVFP4A16 版本——它是大多数本地代理和聊天工作负载的推荐默认选项。

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#notes注意事项

  • 已去审查(uncensored)。请负责任地使用。
  • NVFP4 是 Blackwell 专属,无法在 Ampere/Hopper 上运行。
  • 多模态视觉/音频嵌入器保持 BF16 格式。

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#credits致谢

  • 基础模型 & 去审查: huihui-ai (https://huggingface.co/huihui-ai)
  • 原始模型: Google DeepMind (https://huggingface.co/google/gemma-4-12B-it)(Gemma 4)
  • 量化及服务方案: Lna-Lab · 工具: llm-compressor (https://github.com/vllm-project/llm-compressor) / vLLM (https://github.com/vllm-project/vllm)

https://huggingface.co/sakamakismile/Huihui-gemma-4-12B-it-abliterated-NVFP4A16#support-the-base-model-author-huihui-ai支持基础模型作者 (huihui-ai)

如果你觉得去审查后的基础模型有用,请支持 huihui-ai:

  • Ko-fi: https://ko-fi.com/huihuiai
  • 比特币: bc1qqnkhuchxw0zqjh2ku3lu4hq45hc6gy84uk70ge

Crown 👑 (@barackomaba): 我看到了曙光。Gemma 模型实际上非常出色。

12b 版本在 Hermes 任务上的表现可能比 qwen3.6 35b 还要好。

我的 AMD Strix Halo 在 26b QAT MTP 配置下达到了 115 TPS+

新的质量测试已运行: https://t.co/UcZiLjFDcf https://t.co/Has9oJrz7Y

@usr_bin_roygbiv

相似文章

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

Gemma 4 31B 的能力让我惊讶

Reddit r/LocalLLaMA

一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。

Qwen3.6-35B 与 Gemma4-26B 在 7900 XTX 上的对比

Reddit r/LocalLLaMA

一项详细的基准测试对比了 Radeon 7900 XTX 上的 Qwen3.6-35B 和 Gemma4-26B,结果显示尽管 Gemma 的 token 生成速度较慢,但端到端快了约 20%,原因是 Qwen 因内部推理生成了约两倍的 token。文章建议:在吞吐量受限的批量任务中使用 Qwen,在延迟敏感的单次请求中使用 Gemma。

Qwen 3.6 35B A3B 的热度绝非虚名!

Reddit r/LocalLLaMA

作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。