Gemma 4 QAT 31B 对 KV 缓存量化的响应也更好

Reddit r/LocalLLaMA 模型

摘要

Gemma 4 QAT 31B 模型在 KV 缓存量化时表现出更好的行为,表明推理效率得到提升。

暂无内容
查看原文

相似文章

Gemma 4 26B A4B IT QAT 对比

Reddit r/LocalLLaMA

一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。