Gemma 4 26B A4B IT QAT 对比
摘要
一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。
希望这篇帖子不算太敷衍。我刚完成基准测试,决定发到网上,因为对我个人来说确实很有启发。我没有使用任何AI,除了问了一下Gemini 3.1 Pro结果是否具有统计显著性——当时太累了,懒得做推断统计。
**方法:** oMLX用于运行来自mlx-community的Gemma 4 26BA4B IT。我使用了以下模型:
Gemma 26B 4 位:[https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-4bit](https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-4bit)
Gemma 26B 6 位:[https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-6bit](https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-6bit)
Gemma 26B QAT 8 位:[https://huggingface.co/mlx-community/gemma-4-26B-A4B-it-qat-8bit](https://huggingface.co/mlx-community/gemma-4-26B-A4B-it-qat-8bit)
我在一台搭载64GB内存的Macbook M5 Pro上运行,使用oMLX 0.4.1版本,未量化的kv缓存,并启用了thinking功能。
我在所有模型上运行了以下测试:50道MMLU_PRO题目,100道HumanEval题目。
上述所有模型之间的聊天模板唯一区别在于多模态工具调用,因此对结果没有影响。
此外,它们都使用相同的量化方法,因此唯一的变量应该是原始模型的权重。
我选择了8位QAT,以避免mlx特定量化损伤带来的混杂变量。
我的目标是尽可能将QAT模型与原始模型进行接近的比较。
该模型应该与unsloth的q4_k_xl量化的QAT模型几乎相同。(我的意思是真正非常接近相同,而不是那种“TQ4基本上和BF16一样”的程度。)
我选择将其与mlx的4位和6位量化版本进行比较,因为这两个bpw范围都在用户对是否用新的QAT模型替换旧量化感到不确定的范围内。
**结果:**
|模型|基准测试|百分比(正确/总数)|
|:-|:-|:-|
|Gemma 4 26B IT 4 Bit|MMLU_PRO |56.0% (28/50)|
|Gemma 4 26B IT 4 Bit|HUMANEVAL|90.0% (90/100)|
|Gemma 4 26B IT 6 Bit|MMLU_PRO|58.0% (29/50)|
|Gemma 4 26B IT 6 Bit|HUMANEVAL|98.0% (98/100)|
|Gemma 4 26B IT QAT 8 Bit|MMLU_PRO|52.0% (26/50)|
|Gemma 4 26B IT QAT 8 Bit|HUMANEVAL|90.0% (90/100)|
**解读:**
卡方检验和z检验均由Gemini执行。
>所有基准测试中唯一统计上有说服力的差异证据是,**QAT 8位模型在HUMANEVAL上的表现不如6位模型**。
在MMLU_PRO上观察到的性能差异不具有统计显著性,可以归因于样本量较小(50题)导致的随机波动。
因此,我得出的结论是,QAT模型比原始模型的Q6量化版本更差。
这意味着“QAT与BF16无区别”或“分布非常接近”的说法可能错误,因为完整的QAT模型不太可能击败测试的8位模型,而完整的非QAT模型则很可能击败q6模型,表明实际存在的差距可能比我能展示的更大。
QAT与常规的MLX q4量化版本相比,没有明显优劣。
现在,对于GGUF来说,QAT很可能仍然远超Q4_0,甚至可能与IQ4_XS竞争,但认为应该用QAT量化替换q4_k、q5甚至q6量化的假设似乎为时过早。
我可能会在26B上做更多测试,甚至以后测试31B模型,因为目前样本量刚好足以初步了解情况。
创意写作方面可能不同,但我主要想衡量与原始模型的相似性,而基准测试表现更差本身就意味着不相似。
此外,这是一个MoE模型,所以QAT可能在31B上效果更好。
长话短说:Gemma 4 QAT(未量化)不如Gemma 4(未量化),因此用Gemma 4 26B QAT替换5位、6位甚至动态4位量化可能没有意义。这些观察结果可能不适用于31B、12B或E2/4B。
相似文章
Gemma 4 12b QAT 对于我的用例来说是一种倒退,尽管热议纷纷.. 不是我的主要推荐
作者报告称,与标准 Q5_K_L 版本相比,Gemma 4 12b QAT 模型由于控制令牌配置错误导致的 bug,在工具调用和编码任务上出现了倒退。尽管令牌速度很高,但模型输出不一致,使其不适合代理工作流。
Gemma4 26B A4B的QAT变体对我来说表现不佳
有用户报告称,Gemma4 26B A4B的QAT量化变体在棋盘SVG测试中性能比非QAT版本更差,尽管使用了建议设置,棋子绘制仍不稳定。
对QAT模型使用替代量化有意义吗?[D]
讨论对像Gemma-4这样的量化感知训练(QAT)模型使用替代量化方法是否合理,质疑unsloth的基准测试显示其更接近QAT微调的性能是有益还是适得其反。
Gemma 4 QAT模型:为移动和笔记本电脑效率优化压缩
谷歌发布采用量化感知训练(QAT)优化的Gemma 4模型,旨在提升移动和笔记本电脑部署的效率,将E2B模型的内存占用降至1GB,同时保持质量。
一些测试不同Gemma和Qwen量化版本准确性的对比实验
一位用户分享了针对不同量化版本的Gemma和Qwen模型在算术、总统出生日期和注意力测试中的准确率对比基准结果,强调了模型规模与量化级别之间的权衡。