Gemma 4 QAT 31B 对 KV 缓存量化的响应也更好

Reddit r/LocalLLaMA 2026/06/22 10:23 模型

gemma-4 qat 31b kv-cache-quantization quantization ai-model performance

摘要

Gemma 4 QAT 31B 模型在 KV 缓存量化时表现出更好的行为，表明推理效率得到提升。

暂无内容

查看原文

相似文章

Hacker News Top

谷歌发布采用量化感知训练（QAT）优化的Gemma 4模型，旨在提升移动和笔记本电脑部署的效率，将E2B模型的内存占用降至1GB，同时保持质量。

Reddit r/LocalLLaMA

作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。

X AI KOLs Following

新的 QAT Gemma 4 检查点提供相似的性能，内存使用减少约 4 倍，通过一种新的移动端量化格式，使 Gemma 4 E2B 的内存占用仅需 1GB。

Reddit r/LocalLLaMA

一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本（4位、6位和8位QAT）进行了基准测试，发现QAT 8位模型在HumanEval上的表现不如6位量化版本，且并未明显优于4位版本，从而质疑QAT对此模型的优越性。

Reddit r/LocalLLaMA

作者报告称，与标准 Q5_K_L 版本相比，Gemma 4 12b QAT 模型由于控制令牌配置错误导致的 bug，在工具调用和编码任务上出现了倒退。尽管令牌速度很高，但模型输出不一致，使其不适合代理工作流。