标签
作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。
Gemma4-12B-QAT Uncensored Balanced 发布,这是一个经过微调的无审查模型,配备多 token 预测草案头,可实现约 60% 更快的推测解码,针对 llama.cpp 优化,并支持视觉功能。
本文介绍如何使用 Colab-CLI 在 MacBook Air 或 Linux 计算机等性能不足的机器上运行 Gemma4 12B 模型,利用 Google Colab 的免费版本。
一项实时挑战正在进行,旨在在单个A10G GPU上加速Gemma 4 E4B模型的推理,Hugging Face上的仪表板跟踪智能体的提交情况。
一位用户寻求澄清 llama.cpp 中 MTP(多 token 预测)与 QAT(量化感知训练)之间的关系,特别是关于 Gemma4 模型的 GGUF 兼容性以及文件名中新增的 QAT 字符串。
有用户报告称,Gemma4 26B A4B的QAT量化变体在棋盘SVG测试中性能比非QAT版本更差,尽管使用了建议设置,棋子绘制仍不稳定。
Google 新推出的 Gemma 4 12B 是一个纯解码器 transformer,采用无编码器的多模态输入,在达到强大基准性能的同时,尺寸足够小,可以在廉价 GPU 上本地运行。它采用 Apache 2.0 许可证发布。
一位开发者创建了一个名为Dobby的Chrome扩展程序,可以在PC上本地运行谷歌的Gemma4(Gemini Nano),无需GPU,只需Chrome和16GB内存。该扩展提供了一个简单的界面,用于与模型交互,完成拼写检查或摘要等任务。
用户对 Gemma4 26B A4B 模型的 APEX 量化版本在 AMD RX 9060 XT 上进行了基准测试,在 90k 上下文下实现了 38 tps,没有质量下降,发现它优于之前的量化版本。
这是一个实验性 Jinja 模板,用于 llama.cpp 中的 Gemma4 31B,通过修复常见的 thinking tag 问题来提升多轮工具调用的稳定性。欢迎社区反馈,但 Google 不推荐使用。
Ollama现在原生支持Codex,让你可以完全免费且本地运行OpenAI Codex应用,无需订阅、无需API密钥、数据不离开你的笔记本电脑。
HauhauCS 发布了 Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced,这是 Gemma4 的无损无审查变体,经过一个多月的开发,拒绝次数为 0/465,提供 GGUF 格式。
一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP(多令牌预测)基准测试,发现它在代码生成方面表现出色(速度快 1.53 倍,接受率 66%),但对 JSON 输出不利(速度慢 50%,接受率仅 8%),对长篇散文则影响中性,表明当令牌接受率低于 50% 时,MTP 的优势便荡然无存。
在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。