如果显存允许，尽量跑更大的量化模型

Reddit r/LocalLLaMA 2026/04/22 09:54 工具

摘要

有用户反馈，把高度压缩的 IQ4_XS 换成更大的 IQ4_NL_XL 后，Qwen 3.6 的 Agent 编程准确率大幅提升；虽然 tok/s 下降，但只要 VRAM 够，强烈建议优先选更大的量化。

友情提醒：\*只要\*你能跑更大的量化，就别犹豫。我曾在 128k 上下文用 Qwen 3.6 IQ4_XS，结果各种循环、格式错误、实现跑偏，体验很差。后来显存还有余量，就试了新的 unsloth IQ4_NL_XL，只能说——Agent 编程效果\*好太多\*。如果你跟我一样，习惯先按“完全塞进显存”来保守选模型，反而可能把体验拉胯。判断量化别只看 tok/s，盯紧任务实际耗时：哪怕 tok/s 低（甚至开了 offload），只要一次做对，总时间反而更短（废话）。

查看原文

相似文章

有人在32GB Mac上使用opencode、claude code或类似工具，通过Qwen3.6-35B-A3B-UD-Q4_K_M实际完成编码工作吗？

Reddit r/LocalLLaMA

我在一台配备32GB RAM的M2 Macbook Pro上运行Qwen3.6-35B-A3B-UD-Q4_K_M。我使用的是相当新版本的llama.cpp和opencode。为了避免llama-server因内存耗尽而直接崩溃，我必须将上下文窗口设置为32768个token。这一点后来被证明很重要。作为一次希望能有些参考价值的测试，我给opcode布置了一个之前Claude Code配合Opus 4.7能够完成的任务。项目不算大，但任务涉及深入挖掘应用程序的前后端，并找出一个连我（作为原始开发者，在AI之前）都没有一眼看出的问题。

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

Reddit r/LocalLLaMA

用户反馈，尽管基准测试表现亮眼，Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B，怀疑是量化或部署配置问题。

@ProTekkFZS：在 3090 上用 Q4_K_M 3.6 35B、768k 上下文加 YaRN，爽到飞起

X AI KOLs Following

用户报告称，通过 llama.cpp 分支，在 RTX 3090 上成功以 Q4_K_M 量化运行 35B 参数 MoE 模型，上下文长达 768K，仅把 8 个专家卸载到 CPU，性能依旧可接受。

需要 DeepSeek V3.2 各量化级别的质量基准信息 [D]

Reddit r/MachineLearning

开发者寻求质量基准，以评估运行时量化对 DeepSeek V3.2 模型性能的影响。

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

相似文章

有人在32GB Mac上使用opencode、claude code或类似工具，通过Qwen3.6-35B-A3B-UD-Q4_K_M实际完成编码工作吗？

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

@ProTekkFZS：在 3090 上用 Q4_K_M 3.6 35B、768k 上下文加 YaRN，爽到飞起

需要 DeepSeek V3.2 各量化级别的质量基准信息 [D]

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

提交意见反馈