你对Gemma4 QAT的体验如何？

Reddit r/LocalLLaMA 2026/06/08 00:11 模型

gemma4 qat quantization user-experience performance roleplay mtp

摘要

用户分享了使用Gemma4 QAT模型的积极体验，提到质量提升和MTP带来的速度增益，并询问其他人的体验。

大家好！我不是母语者，所以如果我犯了错误，请纠正我的英语（我只会从中学习！）。虽然这个模型才发布不久，但我想写点东西，因为它给我带来了很多乐趣。首先声明：我使用Qwen3.6 27B进行编程，Gemma4则用于几乎所有其他任务。所以关于编程我没什么可说的。之前我使用Gemma4-31B Q4\_K\_L（用于长128k Q8\_0上下文任务）和Q6\_K\_L（用于短32k Q8\_0上下文任务）。短上下文任务包括快速翻译、角色扮演、简短但准确的OCR等。长上下文任务包括长文档解析、网络搜索研究等。使用QAT模型后，我能够用同一个模型完成这两类任务（太好了！），并且注意到细微的质量提升。在角色扮演方面，例如，它的用词更加多样，回应更贴合上下文，能更好地理解关联并加以运用等。遗憾的是，我没有使用Q8\_0模型的经验，但据我所知，它的表现至少优于bartowski的Q6\_K\_L。不过它仍然受到缓存量化的严重限制，对我来说Q8\_0在128K时确实有明显的降级。使用Gemma 31B QAT的MTP也很棒！在32k令牌的维基百科页面摘要任务中，我获得了50 t/s的tg速度（相比之下之前是21 t/s），在角色扮演中约36 t/s（之前是20 t/s），在Linux上你可能会获得更高的数字（我现在只能用Windows...）。我需要进行调整，对我来说5个最大草稿效果不错，但对我的朋友们来说，4或6个效果更好。尝试在同一任务中分别运行5次3-7个草稿，看看哪个最适合你。好了，关于我的经历就这么多！你们的经历如何？在使用QAT模型时，你们是否注意到任何改进或退化？以及它在编程方面的表现如何？

查看原文

你对Gemma4 QAT的体验如何？

相似文章

[3090] Gemma4 QAT + MTP 快速TPS数据 [TLDR 提升1.2-1.8倍]

Gemma 4 12b QAT 对于我的用例来说是一种倒退，尽管热议纷纷.. 不是我的主要推荐

Gemma 4 26B A4B IT QAT 对比

Gemma 4 QAT 基准测试结果（AMD 7900 XTX）：速度更快，显存占用更少，质量无损

@osanseviero: Gemma 4 MTP 现已正式合并到 llama.cpp，这意味着你可以使用 Gemma 4 QAT + MTP 来实现轻量级且超快的…

提交意见反馈