标签
Unsloth 发布了 Gemma 4 QAT MTP 辅助模型,以 GGUF 文件形式在 Hugging Face 上提供,支持 q8_0 及更大量化格式。
Google DeepMind 宣布推出 Gemma 4 12B,一种新颖的无编码器多模态 AI 模型,将视觉和音频直接集成到 LLM 主干中,在配备 16GB RAM 的笔记本电脑上提供高级推理和代理能力,以 Apache 2.0 许可证发布。
Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。
一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。
一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本(4位、6位和8位QAT)进行了基准测试,发现QAT 8位模型在HumanEval上的表现不如6位量化版本,且并未明显优于4位版本,从而质疑QAT对此模型的优越性。
一种新颖的两步消融技术(ASPA)应用于Gemma-4-12B,实现了零拒绝率和零能力损失,通过源锚定恢复基准性能。
Google 发布了 Gemma 4 模型,采用量化感知训练 (QAT) 并以 Q4_0 精度托管在 Hugging Face 上,提供从 5B 到 33B 参数的高效变体。
新的 QAT Gemma 4 检查点提供相似的性能,内存使用减少约 4 倍,通过一种新的移动端量化格式,使 Gemma 4 E2B 的内存占用仅需 1GB。
基准测试结果显示,在24GB RTX 3090 GPU上使用QAT和MTP,Gemma 4模型(12B和26B)的每秒token速度提升了1.2-1.8倍。
Google 的 Gemma 4 31B IT 模型现在更新了聊天模板,支持保留思考过程,并改进了空值处理、推理保留和输入验证。
在 llama.cpp 中,将量化从 q4_k_m 切换为 q4_k_xl,可在相同 GPU(RTX 4060)上使推理速度翻倍,无需更换硬件或驱动,如 Gemma 4 12B 所示。
作者报告称,与标准 Q5_K_L 版本相比,Gemma 4 12b QAT 模型由于控制令牌配置错误导致的 bug,在工具调用和编码任务上出现了倒退。尽管令牌速度很高,但模型输出不一致,使其不适合代理工作流。
技术对比显示,Google的Q4_0量化Gemma-4模型比Unsloth的Q4_K_XL版本具有更高的精度和更多的高精度张量,从而导致文件体积更大。
介绍使用 Gemma 4 26B 模型与 Hermes Desktop 工具在 8GB 显存入门笔记本上运行完全自主的 AI Agent,实现本地文件操作、代码修改、网页浏览等功能,显著降低了本地 Agent 的门槛。
Gemma 4 MTP 已合并到 llama.cpp,通过 Gemma 4 QAT 和 MTP 实现轻量且快速的推理。
Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。
对Google的Gemma-4-12B-it模型进行混合精度量化,使用NVFP4用于MLP权重,FP8用于注意力层,实现了25%更小的存储占用和更快的吞吐量,同时保持质量。
Google的Gemma 4 12B QAT模型通过llama.cpp的多令牌预测(MTP)在12GB GPU上达到120 tok/s。本文提供分步指南以及无MTP的基准对比,显示速度提升2倍。
该模型是Google Gemma 4 12B it模型的未经审查版本,通过abliteration技术移除拒绝回答。可在Hugging Face和Ollama上获取,需注意敏感输出警告。
一位用户在 AMD 7900 XTX 上对 Google 的 Gemma 4 QAT 模型进行了基准测试,报告显示生成速度提升高达 45%,吞吐量提高 83%,显存占用大幅减少(例如 12B QAT 模型节省 5.7GB),且与标准权重相比质量无损。