一些测试不同Gemma和Qwen量化版本准确性的对比实验

Reddit r/LocalLLaMA 新闻

摘要

一位用户分享了针对不同量化版本的Gemma和Qwen模型在算术、总统出生日期和注意力测试中的准确率对比基准结果,强调了模型规模与量化级别之间的权衡。

这些测试主要是为自己做的,因为公开的KLD数值难以解读,例如无法直接比较`9B-Q4`和`4B-Q8`。不过我很乐意与感兴趣的人分享结果: ### 测试1(算术)1000道题目,例如: > 请仅输出以下问题的答案,一个数字。不要输出其他内容。不要使用逗号或下划线。这非常重要。998604052310776342 + 249349834805792420 = ? ### 测试2(总统)46道题目,例如: > 扎卡里·泰勒总统的出生日期是什么?请使用新历。以YYYY-MM-DD格式给出答案,不要输出额外内容。 ### 测试3(注意力)100道题目,例如: > 在以下单词序列中,有一个单词出现了两次。输出该单词。不要输出其他内容。单词列表:pick glad how told held did fill wing only sugar ... wing ...(共1001个单词) ### 准确率 仓库 | 文件 | 备注 | 算术 | 总统 | 注意力 ---|------|--|--:|--:|--: unsloth | gemma-4-E2B-it-Q8_0.gguf | | 1.4% | 28.3% | 0.0% unsloth | gemma-4-E4B-it-Q8_0.gguf | | 0.1% | 65.2% | 3.0% unsloth | gemma-4-12b-it-Q4_K_S.gguf | | 31.0% | 67.4% | 35.0% unsloth | gemma-4-12b-it-Q4_K_S.gguf | 温度=1 | 28.9% unsloth | gemma-4-26B-A4B-it-UD-Q4_K_S.gguf | | 72.3% | 97.8% | 55.0% google | gemma-4-26B_q4_0-it.gguf | QAT | 51.0% | 82.6% | 43.0% unsloth | gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf | QAT | 51.1% | 89.1% | 39.0% unsloth | gemma-4-26B-A4B-it-Q8_0.gguf | | 73.0% | 97.8% | 52.0% unsloth | gemma-4-31B-it-UD-IQ2_XXS.gguf | | 9.4% | 10.9% | 21.0% unsloth | gemma-4-31B-it-Q4_K_S.gguf | | 83.8% | 93.5% | 87.0% unsloth | Qwen3.5-4B-Q4_0.gguf | | 30.7% | 60.9% | 29.0% unsloth | Qwen3.5-4B-Q4_K_S.gguf | | 54.1% | 82.6% | 31.0% unsloth | Qwen3.5-4B-Q8_0.gguf | | 57.8% | 73.9% | 45.0% hauhauCS | Qwen3.5-9B-...-Q4_K_M.gguf | "激进型" | 65.0% | 78.3% | 63.0% unsloth | Qwen3.6-27B-Q4_K_S.gguf | MTP | 95.5% | 100.0% | 93.0% hauhauCS | Qwen3.6-27B-...-Q4_K_P.gguf | "激进型" | 待定 | 100.0% | 95.0% unsloth | Qwen3.6-35B-A3B-UD-Q4_K_S.gguf | | 87.4% | 100.0% | 71.0% unsloth | Qwen3.6-35B-A3B-UD-Q4_K_S.gguf | 温度=1 | 86.5% hauhauCS | Qwen3.6-35B-A3B-...-Q4_K_P.gguf | "激进型" | 89.8% | 100.0% | 56.0% unsloth | Qwen3.6-35B-A3B-Q8_0.gguf | | 85.3% | 100.0% | 77.0% (如果运行更多模型,我会更新表格) ### 设置 * `enable_thinking=false`,因为`thinking`是建立在下一个词元预测之上的,而我仅评估这一底层过程。 * `temperature=0`(除非另有指定),因为在此情境下它实际上是最优的——在不启用`thinking`且不允许多余输出的情况下,只有一个正确的完成方式。 ### 方法 `llama-server -m ... -c ...` ### 讨论 * 如果你在未来读到这篇文章,QAT可能已被修复。试试看。 ### 常见问题 * *"为什么需要用LLM来回答这些问题?"* -- 因为这是对LLM的测试。
查看原文

相似文章

Gemma 4 26B A4B IT QAT 对比

Reddit r/LocalLLaMA

一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

Qwen3.6-27B 量化基准测试

Reddit r/LocalLLaMA

本文使用 KLD 和 Same Top P 指标,对多种 Qwen3.6-27B 量化版本(Q8 至 Q2)进行基准测试,对比了 Unsloth 和 mradermacher 等提供者的量化结果,并给出了质量与大小权衡的建议。

Gemma 4 26B-A4B GGUF 基准测试

Reddit r/LocalLLaMA

嘿,r/LocalLLaMA 社区,我们为不同提供方的 Gemma 4 26B-A4B GGUF 进行了 KL 散度(KL Divergence)基准测试,以帮助大家挑选最佳的量化版本。* 平均 KL 散度结果使几乎所有 **Unsloth GGUF 都位于帕累托前沿** * KLD 用于衡量量化模型与原始 BF16 输出分布的匹配程度,从而反映模型保留的精度。* 这使得 Unsloth 在 21/22 种尺寸中**表现最佳。**99.9% KLD 及其他指标也呈现相似趋势。* 我们还更新了我们的 Q6_K 量化版本以提高动态性。此前,它们...