Gemma4 26B A4B的QAT变体对我来说表现不佳
摘要
有用户报告称,Gemma4 26B A4B的QAT量化变体在棋盘SVG测试中性能比非QAT版本更差,尽管使用了建议设置,棋子绘制仍不稳定。
我正在使用llama.cpp版本b9549,并使用推荐的参数:llama-server --temp 1.0 --top-p 0.95 --top-k 64 -hf ... 以下是我在棋盘SVG测试中得到的结果 [https://www.reddit.com/r/LocalLLaMA/comments/1t53dhp/quality\_comparison\_between\_qwen\_36\_27b/](https://www.reddit.com/r/LocalLLaMA/comments/1t53dhp/quality_comparison_between_qwen_36_27b/) google/gemma-4-26B-A4B-it-qat-q4\_0-gguf:IT [google\/gemma-4-26B-A4B-it-qat-q4\_0-gguf:IT](https://preview.redd.it/albcm4kp0w5h1.png?width=812&format=png&auto=webp&s=185cc22603a164ffe1f6c8aebdd99918c3fd874f) unsloth/gemma-4-26B-A4B-it-qat-GGUF:Q4\_K\_XL [unsloth\/gemma-4-26B-A4B-it-qat-GGUF:Q4\_K\_XL](https://preview.redd.it/cqy8lvdt0w5h1.png?width=814&format=png&auto=webp&s=cef38c320510285b52d8f593175940523153e87b) 作为对比,这是使用相同参数的老版gemma4 unsloth/gemma-4-26B-A4B-it-GGUF:Q4\_K\_XL [unsloth\/gemma-4-26B-A4B-it-GGUF:Q4\_K\_XL](https://preview.redd.it/vrlerwdg2w5h1.png?width=948&format=png&auto=webp&s=3e2a5ea0c31af6a5a7ca67105634620f406f9726) 如你所见,老版A4B全部正确。我运行了多次,它并非完美,有时会交换颜色模式,但至少棋子绘制非常稳定,相比QAT版本要好得多。有人试过吗?你们是否看到同样的结果?
相似文章
Gemma 4 26B A4B IT QAT 对比
一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。
Gemma 4 12b QAT 对于我的用例来说是一种倒退,尽管热议纷纷.. 不是我的主要推荐
作者报告称,与标准 Q5_K_L 版本相比,Gemma 4 12b QAT 模型由于控制令牌配置错误导致的 bug,在工具调用和编码任务上出现了倒退。尽管令牌速度很高,但模型输出不一致,使其不适合代理工作流。
Gemma4 26b a4b Apex 量化版本表现相当不错
用户对 Gemma4 26B A4B 模型的 APEX 量化版本在 AMD RX 9060 XT 上进行了基准测试,在 90k 上下文下实现了 38 tps,没有质量下降,发现它优于之前的量化版本。
@_philschmid: 更多 Gemma 4!新的 QAT Gemma 4 检查点,性能相似,内存使用减少约 4 倍!它附带了一种新的移动…
新的 QAT Gemma 4 检查点提供相似的性能,内存使用减少约 4 倍,通过一种新的移动端量化格式,使 Gemma 4 E2B 的内存占用仅需 1GB。
你对Gemma4 QAT的体验如何?
用户分享了使用Gemma4 QAT模型的积极体验,提到质量提升和MTP带来的速度增益,并询问其他人的体验。