模型与量化质量测试结果 - 棋盘 SVG (Qwen3.6 27B/35B-A3B/Zaya1)
摘要
社区测试者使用MLX等本地推理框架,评估Qwen3.6、ZAYA1等模型的量化版本在SVG棋盘生成准确性方面的表现。
基于此,我又运行了几次测试以覆盖更多模型和量化版本。[https://www.reddit.com/r/LocalLLaMA/comments/1t53dhp/quality\_comparison\_between\_qwen\_36\_27b/](https://www.reddit.com/r/LocalLLaMA/comments/1t53dhp/quality_comparison_between_qwen_36_27b/) [Qwen3.6 35B-A3B MLX oQ4. 非常非常好。(oMLX - 本地)](https://preview.redd.it/zs7hp4o01o0h1.png?width=841&format=png&auto=webp&s=e6d2ae4ce91317fe5ccd8af27bf39352ae6e34a0) Qwen 3.6 35B-A3B MLX oQ4 的输出近乎完美。包含标题、最后一步标注、行和列。但两个光标(一个显示起点,另一个显示终点,红色三角形)乍一看有点令人困惑。[ZAYA1 8B - 完美,但没有 a-h,1-8 行列标记(Zaya Cloud)](https://preview.redd.it/zhwqj6nq1o0h1.png?width=397&format=png&auto=webp&s=b4c9840593e3fa63dcce1b3272d0352dc8df515d) ZAYA1 8B 是开放权重模型。我尝试用 MLX-LM 通过[这个 PR](https://github.com/ml-explore/mlx-lm/pull/1261)运行它,但没有成功。8 位量化模型一直在循环推理,没有生成任何 SVG。我认为本地推理引擎还没准备好,因为该模型需要 RSA 技术才能运行。所以我发布了来自 Zaya Cloud 游乐场的结果——假设它是 FP16 版本。如果本地推理引擎能产生相同的答案,我们将有一个非常有前景的模型可以在我们的小计算机上运行。在我的计算机上运行 8 位量化模型整个过程占用内存不到 12GB。[Qwen3.6 27B MLX oQ6. 非常好(oMLX - 本地)无行/列标记](https://preview.redd.it/cy0vwne53o0h1.png?width=2003&format=png&auto=webp&s=a449e7f9116212eccc86a324ecdbb737b8cc8559) 27B 的 MLX-oQ 6 位量化给出了良好且正确的答案,但无法降至 3.5 位。[Qwen3.6 27B MLX oQ3.5e,不太好。(oMLX - 本地)](https://preview.redd.it/ezy47exe1o0h1.png?width=479&format=png&auto=webp&s=a2428638e9649bed9dedc1b859ba5d5d8329825c) [HY3 Preview 295B A21B - 完美,但没有线、行和列标记。(Open Router)](https://preview.redd.it/i426jorx1o0h1.png?width=479&format=png&auto=webp&s=35af296ca4d96f89c3348427a8e21444597a5f7b) HY3 的 295B 模型在我的机器上跑不动,所以结果是云端的。现在我们进入了奇怪的领域——使用那些在 Hugging Face 上漂浮的成千上万的衍生模型。我会使用来自 Jackrong、OrionLLM 和 DavidAU 的模型,因为他们都发布了一些基准并承诺了不错的结果。[GRM 2.6 Plus Q4K\_M - OrionLLM 基于 Qwen3.6 27B 的衍生模型 - 正确的输出,看起来非常好。](https://preview.redd.it/hbwshurr3o0h1.png?width=1871&format=png&auto=webp&s=2cb97fa0691362f9c08699b95259bd572d86dcf3) [GRM 2.6 Plus Q3K\_M - OrionLLM 基于 Qwen3.6 27B 的衍生模型 - 3 位量化不行。](https://preview.redd.it/i5rjfxxn9o0h1.png?width=1638&format=png&auto=webp&s=237a1cd281f90793a849441708091ab37103f5c2) [qwen3.6-27b-neo-code-di-imatrix-max@iq4\_nl - 这个 4 位量化表现很好。](https://preview.redd.it/oxcwkerg8o0h1.png?width=1864&format=png&auto=webp&s=b29268bd21a52587622c91b42699e3000fc6f5b6) [qwen3.6-27b-neo-code-di-imatrix-max@q5k\_s - 然而它的 5 位量化对应版本完全错误。](https://preview.redd.it/983uadteeo0h1.png?width=1878&format=png&auto=webp&s=8848adc70ebb7900d1ab685fdd808046a427a213) 这并不意味着高位量化总是比低位量化表现更好。[Qwopus 35B-A3B-v1 Jackrong 的 Q4K\_S - 棋盘错误,并且莫名其妙出现了“game ended”的字样。](https://preview.redd.it/w5vyru6j5o0h1.png?width=1840&format=png&auto=webp&s=fcf7c46f0d54b4057f841cba14a327f8f0fb2c6b) [GRM 2.6 Opus 3 位 Q3K\_M,正确但视觉效果有所降低。这是以某种方式工作的最小 27B 量化。](https://preview.redd.it/4p9wljvn6o0h1.png?width=1107&format=png&auto=webp&s=80e764861a6c0d5af6425fcff36ae50b8050b7b9)
相似文章
一些测试不同Gemma和Qwen量化版本准确性的对比实验
一位用户分享了针对不同量化版本的Gemma和Qwen模型在算术、总统出生日期和注意力测试中的准确率对比基准结果,强调了模型规模与量化级别之间的权衡。
GLM 5.2 Q1_S 对比 Qwen 27B Q8
一位爱好者将高度量化的 GLM 5.2(Q1_S)与高量化版本的 Qwen 27B(Q8)在代码生成任务上进行对比,发现量化程度较低的大模型在质量和完整性上明显优于量化程度较高的小模型。
Gemma4 26B A4B的QAT变体对我来说表现不佳
有用户报告称,Gemma4 26B A4B的QAT量化变体在棋盘SVG测试中性能比非QAT版本更差,尽管使用了建议设置,棋子绘制仍不稳定。
@cjzafir:Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型,在全精度和 Q8 量化版本上达到了 98% 的准确率…
一位开发者报告称,使用 Unsloth 微调 Qwen 3.5 4B 和 8B 模型后取得了高准确率,这表明业界正转向针对细分任务使用专用的专家语言模型(ELMs)。
需要第二双眼睛,这个Qwen3.6 27B量化方案总是用更少的思考且正确
作者分享了一个Qwen3.6 27B的量化方案,该方案使模型使用显著更少的思考令牌,同时仍然产生正确的答案,从而在数学基准测试中实现更快的推理。