Gemma 4 26B A4B IT QAT 对比

Reddit r/LocalLLaMA 2026/06/09 04:01 模型

gemma-4 quantization qat benchmark comparison moe llm

摘要

一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本（4位、6位和8位QAT）进行了基准测试，发现QAT 8位模型在HumanEval上的表现不如6位量化版本，且并未明显优于4位版本，从而质疑QAT对此模型的优越性。

希望这篇帖子不算太敷衍。我刚完成基准测试，决定发到网上，因为对我个人来说确实很有启发。我没有使用任何AI，除了问了一下Gemini 3.1 Pro结果是否具有统计显著性——当时太累了，懒得做推断统计。 **方法：** oMLX用于运行来自mlx-community的Gemma 4 26BA4B IT。我使用了以下模型： Gemma 26B 4 位：[https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-4bit](https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-4bit) Gemma 26B 6 位：[https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-6bit](https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-6bit) Gemma 26B QAT 8 位：[https://huggingface.co/mlx-community/gemma-4-26B-A4B-it-qat-8bit](https://huggingface.co/mlx-community/gemma-4-26B-A4B-it-qat-8bit) 我在一台搭载64GB内存的Macbook M5 Pro上运行，使用oMLX 0.4.1版本，未量化的kv缓存，并启用了thinking功能。我在所有模型上运行了以下测试：50道MMLU_PRO题目，100道HumanEval题目。上述所有模型之间的聊天模板唯一区别在于多模态工具调用，因此对结果没有影响。此外，它们都使用相同的量化方法，因此唯一的变量应该是原始模型的权重。我选择了8位QAT，以避免mlx特定量化损伤带来的混杂变量。我的目标是尽可能将QAT模型与原始模型进行接近的比较。该模型应该与unsloth的q4_k_xl量化的QAT模型几乎相同。（我的意思是真正非常接近相同，而不是那种“TQ4基本上和BF16一样”的程度。）我选择将其与mlx的4位和6位量化版本进行比较，因为这两个bpw范围都在用户对是否用新的QAT模型替换旧量化感到不确定的范围内。 **结果：** |模型|基准测试|百分比（正确/总数）| |:-|:-|:-| |Gemma 4 26B IT 4 Bit|MMLU_PRO |56.0% (28/50)| |Gemma 4 26B IT 4 Bit|HUMANEVAL|90.0% (90/100)| |Gemma 4 26B IT 6 Bit|MMLU_PRO|58.0% (29/50)| |Gemma 4 26B IT 6 Bit|HUMANEVAL|98.0% (98/100)| |Gemma 4 26B IT QAT 8 Bit|MMLU_PRO|52.0% (26/50)| |Gemma 4 26B IT QAT 8 Bit|HUMANEVAL|90.0% (90/100)| **解读：** 卡方检验和z检验均由Gemini执行。 >所有基准测试中唯一统计上有说服力的差异证据是，**QAT 8位模型在HUMANEVAL上的表现不如6位模型**。在MMLU_PRO上观察到的性能差异不具有统计显著性，可以归因于样本量较小（50题）导致的随机波动。因此，我得出的结论是，QAT模型比原始模型的Q6量化版本更差。这意味着“QAT与BF16无区别”或“分布非常接近”的说法可能错误，因为完整的QAT模型不太可能击败测试的8位模型，而完整的非QAT模型则很可能击败q6模型，表明实际存在的差距可能比我能展示的更大。 QAT与常规的MLX q4量化版本相比，没有明显优劣。现在，对于GGUF来说，QAT很可能仍然远超Q4_0，甚至可能与IQ4_XS竞争，但认为应该用QAT量化替换q4_k、q5甚至q6量化的假设似乎为时过早。我可能会在26B上做更多测试，甚至以后测试31B模型，因为目前样本量刚好足以初步了解情况。创意写作方面可能不同，但我主要想衡量与原始模型的相似性，而基准测试表现更差本身就意味着不相似。此外，这是一个MoE模型，所以QAT可能在31B上效果更好。长话短说：Gemma 4 QAT（未量化）不如Gemma 4（未量化），因此用Gemma 4 26B QAT替换5位、6位甚至动态4位量化可能没有意义。这些观察结果可能不适用于31B、12B或E2/4B。

查看原文

Gemma 4 26B A4B IT QAT 对比

相似文章

Gemma 4 12b QAT 对于我的用例来说是一种倒退，尽管热议纷纷.. 不是我的主要推荐

Gemma4 26B A4B的QAT变体对我来说表现不佳

对QAT模型使用替代量化有意义吗？[D]

Gemma 4 QAT模型：为移动和笔记本电脑效率优化压缩

一些测试不同Gemma和Qwen量化版本准确性的对比实验

提交意见反馈