你对Gemma4 QAT的体验如何?
摘要
用户分享了使用Gemma4 QAT模型的积极体验,提到质量提升和MTP带来的速度增益,并询问其他人的体验。
大家好!我不是母语者,所以如果我犯了错误,请纠正我的英语(我只会从中学习!)。虽然这个模型才发布不久,但我想写点东西,因为它给我带来了很多乐趣。首先声明:我使用Qwen3.6 27B进行编程,Gemma4则用于几乎所有其他任务。所以关于编程我没什么可说的。之前我使用Gemma4-31B Q4\_K\_L(用于长128k Q8\_0上下文任务)和Q6\_K\_L(用于短32k Q8\_0上下文任务)。短上下文任务包括快速翻译、角色扮演、简短但准确的OCR等。长上下文任务包括长文档解析、网络搜索研究等。使用QAT模型后,我能够用同一个模型完成这两类任务(太好了!),并且注意到细微的质量提升。在角色扮演方面,例如,它的用词更加多样,回应更贴合上下文,能更好地理解关联并加以运用等。遗憾的是,我没有使用Q8\_0模型的经验,但据我所知,它的表现至少优于bartowski的Q6\_K\_L。不过它仍然受到缓存量化的严重限制,对我来说Q8\_0在128K时确实有明显的降级。使用Gemma 31B QAT的MTP也很棒!在32k令牌的维基百科页面摘要任务中,我获得了50 t/s的tg速度(相比之下之前是21 t/s),在角色扮演中约36 t/s(之前是20 t/s),在Linux上你可能会获得更高的数字(我现在只能用Windows...)。我需要进行调整,对我来说5个最大草稿效果不错,但对我的朋友们来说,4或6个效果更好。尝试在同一任务中分别运行5次3-7个草稿,看看哪个最适合你。好了,关于我的经历就这么多!你们的经历如何?在使用QAT模型时,你们是否注意到任何改进或退化?以及它在编程方面的表现如何?
相似文章
[3090] Gemma4 QAT + MTP 快速TPS数据 [TLDR 提升1.2-1.8倍]
基准测试结果显示,在24GB RTX 3090 GPU上使用QAT和MTP,Gemma 4模型(12B和26B)的每秒token速度提升了1.2-1.8倍。
Gemma 4 12b QAT 对于我的用例来说是一种倒退,尽管热议纷纷.. 不是我的主要推荐
作者报告称,与标准 Q5_K_L 版本相比,Gemma 4 12b QAT 模型由于控制令牌配置错误导致的 bug,在工具调用和编码任务上出现了倒退。尽管令牌速度很高,但模型输出不一致,使其不适合代理工作流。
Gemma 4 26B A4B IT QAT 对比
一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。
Gemma 4 QAT 基准测试结果(AMD 7900 XTX):速度更快,显存占用更少,质量无损
一位用户在 AMD 7900 XTX 上对 Google 的 Gemma 4 QAT 模型进行了基准测试,报告显示生成速度提升高达 45%,吞吐量提高 83%,显存占用大幅减少(例如 12B QAT 模型节省 5.7GB),且与标准权重相比质量无损。
@osanseviero: Gemma 4 MTP 现已正式合并到 llama.cpp,这意味着你可以使用 Gemma 4 QAT + MTP 来实现轻量级且超快的…
Gemma 4 MTP 已合并到 llama.cpp,通过 Gemma 4 QAT 和 MTP 实现轻量且快速的推理。