Gemma 4 26B A4B IT QAT 对比

Reddit r/LocalLLaMA 模型

摘要

一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。

希望这篇帖子不算太敷衍。我刚完成基准测试,决定发到网上,因为对我个人来说确实很有启发。我没有使用任何AI,除了问了一下Gemini 3.1 Pro结果是否具有统计显著性——当时太累了,懒得做推断统计。 **方法:** oMLX用于运行来自mlx-community的Gemma 4 26BA4B IT。我使用了以下模型: Gemma 26B 4 位:[https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-4bit](https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-4bit) Gemma 26B 6 位:[https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-6bit](https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-6bit) Gemma 26B QAT 8 位:[https://huggingface.co/mlx-community/gemma-4-26B-A4B-it-qat-8bit](https://huggingface.co/mlx-community/gemma-4-26B-A4B-it-qat-8bit) 我在一台搭载64GB内存的Macbook M5 Pro上运行,使用oMLX 0.4.1版本,未量化的kv缓存,并启用了thinking功能。 我在所有模型上运行了以下测试:50道MMLU_PRO题目,100道HumanEval题目。 上述所有模型之间的聊天模板唯一区别在于多模态工具调用,因此对结果没有影响。 此外,它们都使用相同的量化方法,因此唯一的变量应该是原始模型的权重。 我选择了8位QAT,以避免mlx特定量化损伤带来的混杂变量。 我的目标是尽可能将QAT模型与原始模型进行接近的比较。 该模型应该与unsloth的q4_k_xl量化的QAT模型几乎相同。(我的意思是真正非常接近相同,而不是那种“TQ4基本上和BF16一样”的程度。) 我选择将其与mlx的4位和6位量化版本进行比较,因为这两个bpw范围都在用户对是否用新的QAT模型替换旧量化感到不确定的范围内。 **结果:** |模型|基准测试|百分比(正确/总数)| |:-|:-|:-| |Gemma 4 26B IT 4 Bit|MMLU_PRO |56.0% (28/50)| |Gemma 4 26B IT 4 Bit|HUMANEVAL|90.0% (90/100)| |Gemma 4 26B IT 6 Bit|MMLU_PRO|58.0% (29/50)| |Gemma 4 26B IT 6 Bit|HUMANEVAL|98.0% (98/100)| |Gemma 4 26B IT QAT 8 Bit|MMLU_PRO|52.0% (26/50)| |Gemma 4 26B IT QAT 8 Bit|HUMANEVAL|90.0% (90/100)| **解读:** 卡方检验和z检验均由Gemini执行。 >所有基准测试中唯一统计上有说服力的差异证据是,**QAT 8位模型在HUMANEVAL上的表现不如6位模型**。 在MMLU_PRO上观察到的性能差异不具有统计显著性,可以归因于样本量较小(50题)导致的随机波动。 因此,我得出的结论是,QAT模型比原始模型的Q6量化版本更差。 这意味着“QAT与BF16无区别”或“分布非常接近”的说法可能错误,因为完整的QAT模型不太可能击败测试的8位模型,而完整的非QAT模型则很可能击败q6模型,表明实际存在的差距可能比我能展示的更大。 QAT与常规的MLX q4量化版本相比,没有明显优劣。 现在,对于GGUF来说,QAT很可能仍然远超Q4_0,甚至可能与IQ4_XS竞争,但认为应该用QAT量化替换q4_k、q5甚至q6量化的假设似乎为时过早。 我可能会在26B上做更多测试,甚至以后测试31B模型,因为目前样本量刚好足以初步了解情况。 创意写作方面可能不同,但我主要想衡量与原始模型的相似性,而基准测试表现更差本身就意味着不相似。 此外,这是一个MoE模型,所以QAT可能在31B上效果更好。 长话短说:Gemma 4 QAT(未量化)不如Gemma 4(未量化),因此用Gemma 4 26B QAT替换5位、6位甚至动态4位量化可能没有意义。这些观察结果可能不适用于31B、12B或E2/4B。
查看原文

相似文章

对QAT模型使用替代量化有意义吗?[D]

Reddit r/MachineLearning

讨论对像Gemma-4这样的量化感知训练(QAT)模型使用替代量化方法是否合理,质疑unsloth的基准测试显示其更接近QAT微调的性能是有益还是适得其反。