模型与量化质量测试结果 - 棋盘 SVG (Qwen3.6 27B/35B-A3B/Zaya1)

Reddit r/LocalLLaMA 2026/05/12 10:11 新闻

local-llm quantization qwen-models mlx-framework benchmarking svg-generation open-weight

摘要

社区测试者使用MLX等本地推理框架，评估Qwen3.6、ZAYA1等模型的量化版本在SVG棋盘生成准确性方面的表现。

基于此，我又运行了几次测试以覆盖更多模型和量化版本。[https://www.reddit.com/r/LocalLLaMA/comments/1t53dhp/quality\_comparison\_between\_qwen\_36\_27b/](https://www.reddit.com/r/LocalLLaMA/comments/1t53dhp/quality_comparison_between_qwen_36_27b/) [Qwen3.6 35B-A3B MLX oQ4. 非常非常好。（oMLX - 本地）](https://preview.redd.it/zs7hp4o01o0h1.png?width=841&format=png&auto=webp&s=e6d2ae4ce91317fe5ccd8af27bf39352ae6e34a0) Qwen 3.6 35B-A3B MLX oQ4 的输出近乎完美。包含标题、最后一步标注、行和列。但两个光标（一个显示起点，另一个显示终点，红色三角形）乍一看有点令人困惑。[ZAYA1 8B - 完美，但没有 a-h，1-8 行列标记（Zaya Cloud）](https://preview.redd.it/zhwqj6nq1o0h1.png?width=397&format=png&auto=webp&s=b4c9840593e3fa63dcce1b3272d0352dc8df515d) ZAYA1 8B 是开放权重模型。我尝试用 MLX-LM 通过[这个 PR](https://github.com/ml-explore/mlx-lm/pull/1261)运行它，但没有成功。8 位量化模型一直在循环推理，没有生成任何 SVG。我认为本地推理引擎还没准备好，因为该模型需要 RSA 技术才能运行。所以我发布了来自 Zaya Cloud 游乐场的结果——假设它是 FP16 版本。如果本地推理引擎能产生相同的答案，我们将有一个非常有前景的模型可以在我们的小计算机上运行。在我的计算机上运行 8 位量化模型整个过程占用内存不到 12GB。[Qwen3.6 27B MLX oQ6. 非常好（oMLX - 本地）无行/列标记](https://preview.redd.it/cy0vwne53o0h1.png?width=2003&format=png&auto=webp&s=a449e7f9116212eccc86a324ecdbb737b8cc8559) 27B 的 MLX-oQ 6 位量化给出了良好且正确的答案，但无法降至 3.5 位。[Qwen3.6 27B MLX oQ3.5e，不太好。（oMLX - 本地）](https://preview.redd.it/ezy47exe1o0h1.png?width=479&format=png&auto=webp&s=a2428638e9649bed9dedc1b859ba5d5d8329825c) [HY3 Preview 295B A21B - 完美，但没有线、行和列标记。（Open Router）](https://preview.redd.it/i426jorx1o0h1.png?width=479&format=png&auto=webp&s=35af296ca4d96f89c3348427a8e21444597a5f7b) HY3 的 295B 模型在我的机器上跑不动，所以结果是云端的。现在我们进入了奇怪的领域——使用那些在 Hugging Face 上漂浮的成千上万的衍生模型。我会使用来自 Jackrong、OrionLLM 和 DavidAU 的模型，因为他们都发布了一些基准并承诺了不错的结果。[GRM 2.6 Plus Q4K\_M - OrionLLM 基于 Qwen3.6 27B 的衍生模型 - 正确的输出，看起来非常好。](https://preview.redd.it/hbwshurr3o0h1.png?width=1871&format=png&auto=webp&s=2cb97fa0691362f9c08699b95259bd572d86dcf3) [GRM 2.6 Plus Q3K\_M - OrionLLM 基于 Qwen3.6 27B 的衍生模型 - 3 位量化不行。](https://preview.redd.it/i5rjfxxn9o0h1.png?width=1638&format=png&auto=webp&s=237a1cd281f90793a849441708091ab37103f5c2) [qwen3.6-27b-neo-code-di-imatrix-max@iq4\_nl - 这个 4 位量化表现很好。](https://preview.redd.it/oxcwkerg8o0h1.png?width=1864&format=png&auto=webp&s=b29268bd21a52587622c91b42699e3000fc6f5b6) [qwen3.6-27b-neo-code-di-imatrix-max@q5k\_s - 然而它的 5 位量化对应版本完全错误。](https://preview.redd.it/983uadteeo0h1.png?width=1878&format=png&auto=webp&s=8848adc70ebb7900d1ab685fdd808046a427a213) 这并不意味着高位量化总是比低位量化表现更好。[Qwopus 35B-A3B-v1 Jackrong 的 Q4K\_S - 棋盘错误，并且莫名其妙出现了“game ended”的字样。](https://preview.redd.it/w5vyru6j5o0h1.png?width=1840&format=png&auto=webp&s=fcf7c46f0d54b4057f841cba14a327f8f0fb2c6b) [GRM 2.6 Opus 3 位 Q3K\_M，正确但视觉效果有所降低。这是以某种方式工作的最小 27B 量化。](https://preview.redd.it/4p9wljvn6o0h1.png?width=1107&format=png&auto=webp&s=80e764861a6c0d5af6425fcff36ae50b8050b7b9)

查看原文

模型与量化质量测试结果 - 棋盘 SVG (Qwen3.6 27B/35B-A3B/Zaya1)

相似文章

一些测试不同Gemma和Qwen量化版本准确性的对比实验

GLM 5.2 Q1_S 对比 Qwen 27B Q8

Gemma4 26B A4B的QAT变体对我来说表现不佳

@cjzafir：Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型，在全精度和 Q8 量化版本上达到了 98% 的准确率…

需要第二双眼睛，这个Qwen3.6 27B量化方案总是用更少的思考且正确

提交意见反馈