Gemma 4 QAT 确认即将发布!
摘要
一位 Google Gemma 团队成员证实,Gemma 4 QAT(量化感知训练)模型即将发布,建议用户等待后再测试自己的量化版本。
这条评论似乎广泛未被注意。[https://old.reddit.com/r/LocalLLaMA/comments/1tvtn6m/googlegemma412b\_hugging\_face/opjj681/](https://old.reddit.com/r/LocalLLaMA/comments/1tvtn6m/googlegemma412b_hugging_face/opjj681/) 或许先暂停测试量化版本,等待其优化版本。该账号是 Gemma 团队的 Omar。
相似文章
Gemma 4 QAT模型:为移动和笔记本电脑效率优化压缩
谷歌发布采用量化感知训练(QAT)优化的Gemma 4模型,旨在提升移动和笔记本电脑部署的效率,将E2B模型的内存占用降至1GB,同时保持质量。
google/gemma-4-12B-it-qat-q4_0-gguf
Google DeepMind 发布了 Gemma 4 模型,这些模型通过量化感知训练(QAT)进行了优化,并提供包括 GGUF 在内的多种格式,在降低内存需求的同时实现了高质量。
@_philschmid: 权重:https://huggingface.co/collections/google/gemma-4-qat-q4-0… 博客:https://blog.google/innovation-and-ai/techno…
Google 发布了 Gemma 4 模型,采用量化感知训练 (QAT) 并以 Q4_0 精度托管在 Hugging Face 上,提供从 5B 到 33B 参数的高效变体。
@TheAhmadOsman: 好消息,谷歌刚刚发布了其Gemma 4模型系列的QAT(4位)版本,包括31B Dense和26B MoE…
谷歌发布了其Gemma 4模型系列的QAT(4位)版本,包括31B Dense和26B MoE模型,进一步推动了开源AI。
Gemma 4 12b QAT 对于我的用例来说是一种倒退,尽管热议纷纷.. 不是我的主要推荐
作者报告称,与标准 Q5_K_L 版本相比,Gemma 4 12b QAT 模型由于控制令牌配置错误导致的 bug,在工具调用和编码任务上出现了倒退。尽管令牌速度很高,但模型输出不一致,使其不适合代理工作流。