Gemma 4 QAT 31B 对 KV 缓存量化的响应也更好
摘要
Gemma 4 QAT 31B 模型在 KV 缓存量化时表现出更好的行为,表明推理效率得到提升。
暂无内容
相似文章
Gemma 4 QAT模型:为移动和笔记本电脑效率优化压缩
谷歌发布采用量化感知训练(QAT)优化的Gemma 4模型,旨在提升移动和笔记本电脑部署的效率,将E2B模型的内存占用降至1GB,同时保持质量。
我绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图
作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。
@_philschmid: 更多 Gemma 4!新的 QAT Gemma 4 检查点,性能相似,内存使用减少约 4 倍!它附带了一种新的移动…
新的 QAT Gemma 4 检查点提供相似的性能,内存使用减少约 4 倍,通过一种新的移动端量化格式,使 Gemma 4 E2B 的内存占用仅需 1GB。
Gemma 4 26B A4B IT QAT 对比
一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。
Gemma 4 12b QAT 对于我的用例来说是一种倒退,尽管热议纷纷.. 不是我的主要推荐
作者报告称,与标准 Q5_K_L 版本相比,Gemma 4 12b QAT 模型由于控制令牌配置错误导致的 bug,在工具调用和编码任务上出现了倒退。尽管令牌速度很高,但模型输出不一致,使其不适合代理工作流。