你对Gemma4 QAT的体验如何?

Reddit r/LocalLLaMA 模型

摘要

用户分享了使用Gemma4 QAT模型的积极体验,提到质量提升和MTP带来的速度增益,并询问其他人的体验。

大家好!我不是母语者,所以如果我犯了错误,请纠正我的英语(我只会从中学习!)。虽然这个模型才发布不久,但我想写点东西,因为它给我带来了很多乐趣。首先声明:我使用Qwen3.6 27B进行编程,Gemma4则用于几乎所有其他任务。所以关于编程我没什么可说的。之前我使用Gemma4-31B Q4\_K\_L(用于长128k Q8\_0上下文任务)和Q6\_K\_L(用于短32k Q8\_0上下文任务)。短上下文任务包括快速翻译、角色扮演、简短但准确的OCR等。长上下文任务包括长文档解析、网络搜索研究等。使用QAT模型后,我能够用同一个模型完成这两类任务(太好了!),并且注意到细微的质量提升。在角色扮演方面,例如,它的用词更加多样,回应更贴合上下文,能更好地理解关联并加以运用等。遗憾的是,我没有使用Q8\_0模型的经验,但据我所知,它的表现至少优于bartowski的Q6\_K\_L。不过它仍然受到缓存量化的严重限制,对我来说Q8\_0在128K时确实有明显的降级。使用Gemma 31B QAT的MTP也很棒!在32k令牌的维基百科页面摘要任务中,我获得了50 t/s的tg速度(相比之下之前是21 t/s),在角色扮演中约36 t/s(之前是20 t/s),在Linux上你可能会获得更高的数字(我现在只能用Windows...)。我需要进行调整,对我来说5个最大草稿效果不错,但对我的朋友们来说,4或6个效果更好。尝试在同一任务中分别运行5次3-7个草稿,看看哪个最适合你。好了,关于我的经历就这么多!你们的经历如何?在使用QAT模型时,你们是否注意到任何改进或退化?以及它在编程方面的表现如何?
查看原文

相似文章

Gemma 4 26B A4B IT QAT 对比

Reddit r/LocalLLaMA

一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。