Gemma4 26B A4B的QAT变体对我来说表现不佳

Reddit r/LocalLLaMA 模型

摘要

有用户报告称,Gemma4 26B A4B的QAT量化变体在棋盘SVG测试中性能比非QAT版本更差,尽管使用了建议设置,棋子绘制仍不稳定。

我正在使用llama.cpp版本b9549,并使用推荐的参数:llama-server --temp 1.0 --top-p 0.95 --top-k 64 -hf ... 以下是我在棋盘SVG测试中得到的结果 [https://www.reddit.com/r/LocalLLaMA/comments/1t53dhp/quality\_comparison\_between\_qwen\_36\_27b/](https://www.reddit.com/r/LocalLLaMA/comments/1t53dhp/quality_comparison_between_qwen_36_27b/) google/gemma-4-26B-A4B-it-qat-q4\_0-gguf:IT [google\/gemma-4-26B-A4B-it-qat-q4\_0-gguf:IT](https://preview.redd.it/albcm4kp0w5h1.png?width=812&format=png&auto=webp&s=185cc22603a164ffe1f6c8aebdd99918c3fd874f) unsloth/gemma-4-26B-A4B-it-qat-GGUF:Q4\_K\_XL [unsloth\/gemma-4-26B-A4B-it-qat-GGUF:Q4\_K\_XL](https://preview.redd.it/cqy8lvdt0w5h1.png?width=814&format=png&auto=webp&s=cef38c320510285b52d8f593175940523153e87b) 作为对比,这是使用相同参数的老版gemma4 unsloth/gemma-4-26B-A4B-it-GGUF:Q4\_K\_XL [unsloth\/gemma-4-26B-A4B-it-GGUF:Q4\_K\_XL](https://preview.redd.it/vrlerwdg2w5h1.png?width=948&format=png&auto=webp&s=3e2a5ea0c31af6a5a7ca67105634620f406f9726) 如你所见,老版A4B全部正确。我运行了多次,它并非完美,有时会交换颜色模式,但至少棋子绘制非常稳定,相比QAT版本要好得多。有人试过吗?你们是否看到同样的结果?
查看原文

相似文章

Gemma 4 26B A4B IT QAT 对比

Reddit r/LocalLLaMA

一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。

Gemma4 26b a4b Apex 量化版本表现相当不错

Reddit r/LocalLLaMA

用户对 Gemma4 26B A4B 模型的 APEX 量化版本在 AMD RX 9060 XT 上进行了基准测试,在 90k 上下文下实现了 38 tps,没有质量下降,发现它优于之前的量化版本。

你对Gemma4 QAT的体验如何?

Reddit r/LocalLLaMA

用户分享了使用Gemma4 QAT模型的积极体验,提到质量提升和MTP带来的速度增益,并询问其他人的体验。