如果显存允许,尽量跑更大的量化模型

Reddit r/LocalLLaMA 工具

摘要

有用户反馈,把高度压缩的 IQ4_XS 换成更大的 IQ4_NL_XL 后,Qwen 3.6 的 Agent 编程准确率大幅提升;虽然 tok/s 下降,但只要 VRAM 够,强烈建议优先选更大的量化。

友情提醒:\*只要\*你能跑更大的量化,就别犹豫。我曾在 128k 上下文用 Qwen 3.6 IQ4_XS,结果各种循环、格式错误、实现跑偏,体验很差。后来显存还有余量,就试了新的 unsloth IQ4_NL_XL,只能说——Agent 编程效果\*好太多\*。如果你跟我一样,习惯先按“完全塞进显存”来保守选模型,反而可能把体验拉胯。判断量化别只看 tok/s,盯紧任务实际耗时:哪怕 tok/s 低(甚至开了 offload),只要一次做对,总时间反而更短(废话)。
查看原文

相似文章

校准用于智能体编码任务的2位GGUF量化(<10Gb)

Reddit r/LocalLLaMA

本文介绍Qwopus3.6-27B-Coder模型的校准2位GGUF量化版本,用于智能体编码任务。实验表明,IQ2_M量化(9.74 GiB)在SWE-rebench基准测试中达到63%的通过率,与Q5_K_M量化相当,但模型大小仅为其一半。