Gemma 4 有一天会成为下一个 Mistral(或 Qwen3.6)吗?关于微调不足的问题。
摘要
一篇分析文章,探讨为何 Gemma 4 尽管具备 QAT 与视觉支持等优势,却相比 Mistral 缺乏社区微调,以及社区惯性是否会最终发生转变。
https://eqbench.com/creative_writing.html#:~:text=gemma%2D4%2D31B,示例 根据我目前看到的,Gemma 4 几乎在所有方面都表现更好(尤其是长上下文遵循能力),但原始散文写作性能不如 Mistral……微调版本。仅比较基座模型,Mistral Small 3.2(目前 AI RP 社区很大一部分骨干模型)在 EQ-Bench 上的创意写作表现较低,不幸的是 EQ-Bench 由 Claude 评分,但每个模型都有大量样本参与测试,你也可以自行评判。我的意思是,Mistral 过去也很差,社区通过大量微调和合并,最终得到了一个几乎两年后仍然备受喜爱的模型。Gemma 也非常稳定,每个主要版本都是年度发布,因此有充足的时间在社区微调中成熟。除了基础性能,Gemma 4 还具备:全局 MTP 支持:你不需要专门调整 Gemma 4 模型来支持 MTP。所有版本都支持,只要你有对应 12B、26B-A4B 或 31B 的正确“Assistant”模型。而且 Assistant 模型不需要经过 abliteration。QAT(量化感知训练):几乎其他所有模型都不支持这一点,连 Qwen 也不行。你在 qat-q4_0-unquantized(理想情况下是这个 Heretic 版本)上运行微调,基座模型的工作流无需任何更改。完成后,任何人都可以将得到的未量化 QAT 模型量化为 4 位格式,质量与 BF16 基座模型非常接近,远优于普通基座模型 4 位量化可能带来的性能下降。最近的测试还显示,使用 QAT 版本时,KV 缓存量化更准确(尤其是 Q8)。这使得 Gemma 4 12B 仅需 8GB VRAM,31B 仅需 20-24GB VRAM,因此大量本地用户可以实际流畅运行。开箱即用的图像和视频理解能力,但遗憾的是没有音频支持,除非使用 12B 或更小版本。Apache 2.0 许可证!这点不能忘记吧?那么,为什么我们不能把所有东西都放在 Gemma 4 上呢?我认为有几个原因:由于 QAT,微调可能需要长达 2 倍的时间。这是为了让更多本地用户能够使用低量化版本的必要代价,但你必须同时在原始 BF16 和未量化的 QAT 上运行微调。新架构可能有点吓人,尤其是 12B 版本……它没有多模态编码器!!!实际上,它可能更容易微调,因为每个多模态 token 都进入同一个解码空间,因此所有东西在一次前向传播中收敛。(我觉得奇怪的是,12B 尽管有这些优点,却几乎没有任何微调版本。)最重要的是……没人想放弃他们钟爱的“如果有效就不要动”的 2024 年架构😭,但总有一天必须改变。稳定扩散社区中的许多人目前正在经历这一点,由于 Anima 1.0 2B(一个非常花哨的 Nvidia Cosmos 2 2B Text2Image 微调模型)的出现。它在所有方面都完全超越 Illustrious SDXL,除了速度(由于 DiT 而非 U-Net,速度慢 2 倍)和社区支持(因为人们不知何故懒得为 SDXL 重新训练他们小众的 LoRA……或者两年前就退出了,但人们仍然在使用那些 LoRA)。包括我在内的许多人都在转向 Anima。如果人们更愿意与 Gemma 4 合作,Mistral 也很可能发生同样的事情。(说真的,视觉支持非常方便。)总有一天,一个精心制作的 Gemma 4 微调模型,可能是 GLM 5.2 蒸馏版本,可能比 Qwen3.6 在编码方面表现更好。或者在几代微调和合并之后……我们可能会看到 31B 占据 UGI 排行榜的顶端,这离现实并不遥远,因为 u/coder3101 的 Heretic 已经排在第六位!总是有可能从 Gemma 4(或几乎任何 8B+ 模型)中去掉那些“垃圾”内容,得到更接近人类的模型。u/Sicarius_The_First 的 Assistant Pepe 模型已经证明了这一点,该模型几乎完全在 4chan 板块上进行微调。你没听错。我相信目前的 Gemma 4 微调模型已经很有前景,最著名的是 MeroMero,它有 https://huggingface.co/zerofata/G4-MeroMero-31B 和 26B-A4B 版本;Equinox,由 Latitude Games 训练,用于其闭源的 AI Dungeon 网站(但他们以开放权重发布,这非常重要);以及疯狂的 Gembrain 合并,它本不打算成功,但确实成功了。所有这些都受到了高度赞扬,而且它们还只是所有可能性的开始。我认为这非常令人印象深刻,我为这些模型感到非常自豪。我不喜欢的是,人们不断抱怨缺乏计算资源来运行更好的模型(由于内存价格或企业政治等原因),然后又因为 yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF 不费吹灰之力就跃居 HF 第一模型而愤怒(别担心,我也讨厌它)。我直说:纯粹抱怨只会浪费时间。不幸的事实是,只有那些拥有更多计算资源的人才能为计算资源较少的人制作模型,这样后者才有理由不向 Anthropic 或其他公司付费使用 LLM。改进模型需要计算资源丰富的人,我知道有很多人能够并且愿意这样做。我不是 AI 界的毛泽东,要求下一个 Opus 4.8 在下周以内不到 500 亿参数发布。我只是希望,人们对改进 LLM 的兴趣并不会因为仍然有人相信再来一次 Mistral 合并就能最终阻止 Elaran't 反复张嘴闭嘴而停滞。不过,我想如果你不想微调,而让你的 4x3090 机器在 Qwen3.6 27B FP16 上推理……那也完全没问题。我并不是想无礼——这只是我的诚实观点,Gemma 4 处于开放权重微调的良好位置。欢迎分享你的想法或担忧,我会尽力回应。我只想看到人类之间进行一次积极、乐观的讨论。还有,我不是 LLM :)
相似文章
Gemma 4 12B 是我的新主力
作者分享了从 Qwen 3.6 切换到 Gemma 4 12B(Unsloth Q5_K_XL)进行本地编程的体验,称赞其即插即用的设置、更好的语法准确性以及可控的 VRAM 使用,尽管在速度上略有取舍。
喜欢 Gemma4 模型的朋友们——你们都是怎么用的?
一位开发者分享了在本地运行 Gemma4 和 Qwen 进行编程任务的复杂体验,指出了工具集成、循环处理和任务完成方面存在的问题,并向社区寻求更优化的使用策略。
Gemma 4 31B 的能力让我惊讶
一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。
Gemma 4 QAT 确认即将发布!
一位 Google Gemma 团队成员证实,Gemma 4 QAT(量化感知训练)模型即将发布,建议用户等待后再测试自己的量化版本。
Gemma 4 26b 为何不受关注?
一位用户询问为什么 Gemma 4 26b 相比 Qwen 模型关注度较低,并分享了他们在 3090 上使用这些模型构建个人助手项目的经验。