Gemma 4 有一天会成为下一个 Mistral（或 Qwen3.6）吗？关于微调不足的问题。

Reddit r/LocalLLaMA 2026/06/22 21:52 新闻

gemma-4 mistral qwen fine-tuning open-source local-ai creative-writing

摘要

一篇分析文章，探讨为何 Gemma 4 尽管具备 QAT 与视觉支持等优势，却相比 Mistral 缺乏社区微调，以及社区惯性是否会最终发生转变。

https://eqbench.com/creative_writing.html#:~:text=gemma%2D4%2D31B,示例根据我目前看到的，Gemma 4 几乎在所有方面都表现更好（尤其是长上下文遵循能力），但原始散文写作性能不如 Mistral……微调版本。仅比较基座模型，Mistral Small 3.2（目前 AI RP 社区很大一部分骨干模型）在 EQ-Bench 上的创意写作表现较低，不幸的是 EQ-Bench 由 Claude 评分，但每个模型都有大量样本参与测试，你也可以自行评判。我的意思是，Mistral 过去也很差，社区通过大量微调和合并，最终得到了一个几乎两年后仍然备受喜爱的模型。Gemma 也非常稳定，每个主要版本都是年度发布，因此有充足的时间在社区微调中成熟。除了基础性能，Gemma 4 还具备：全局 MTP 支持：你不需要专门调整 Gemma 4 模型来支持 MTP。所有版本都支持，只要你有对应 12B、26B-A4B 或 31B 的正确“Assistant”模型。而且 Assistant 模型不需要经过 abliteration。QAT（量化感知训练）：几乎其他所有模型都不支持这一点，连 Qwen 也不行。你在 qat-q4_0-unquantized（理想情况下是这个 Heretic 版本）上运行微调，基座模型的工作流无需任何更改。完成后，任何人都可以将得到的未量化 QAT 模型量化为 4 位格式，质量与 BF16 基座模型非常接近，远优于普通基座模型 4 位量化可能带来的性能下降。最近的测试还显示，使用 QAT 版本时，KV 缓存量化更准确（尤其是 Q8）。这使得 Gemma 4 12B 仅需 8GB VRAM，31B 仅需 20-24GB VRAM，因此大量本地用户可以实际流畅运行。开箱即用的图像和视频理解能力，但遗憾的是没有音频支持，除非使用 12B 或更小版本。Apache 2.0 许可证！这点不能忘记吧？那么，为什么我们不能把所有东西都放在 Gemma 4 上呢？我认为有几个原因：由于 QAT，微调可能需要长达 2 倍的时间。这是为了让更多本地用户能够使用低量化版本的必要代价，但你必须同时在原始 BF16 和未量化的 QAT 上运行微调。新架构可能有点吓人，尤其是 12B 版本……它没有多模态编码器！！！实际上，它可能更容易微调，因为每个多模态 token 都进入同一个解码空间，因此所有东西在一次前向传播中收敛。（我觉得奇怪的是，12B 尽管有这些优点，却几乎没有任何微调版本。）最重要的是……没人想放弃他们钟爱的“如果有效就不要动”的 2024 年架构😭，但总有一天必须改变。稳定扩散社区中的许多人目前正在经历这一点，由于 Anima 1.0 2B（一个非常花哨的 Nvidia Cosmos 2 2B Text2Image 微调模型）的出现。它在所有方面都完全超越 Illustrious SDXL，除了速度（由于 DiT 而非 U-Net，速度慢 2 倍）和社区支持（因为人们不知何故懒得为 SDXL 重新训练他们小众的 LoRA……或者两年前就退出了，但人们仍然在使用那些 LoRA）。包括我在内的许多人都在转向 Anima。如果人们更愿意与 Gemma 4 合作，Mistral 也很可能发生同样的事情。（说真的，视觉支持非常方便。）总有一天，一个精心制作的 Gemma 4 微调模型，可能是 GLM 5.2 蒸馏版本，可能比 Qwen3.6 在编码方面表现更好。或者在几代微调和合并之后……我们可能会看到 31B 占据 UGI 排行榜的顶端，这离现实并不遥远，因为 u/coder3101 的 Heretic 已经排在第六位！总是有可能从 Gemma 4（或几乎任何 8B+ 模型）中去掉那些“垃圾”内容，得到更接近人类的模型。u/Sicarius_The_First 的 Assistant Pepe 模型已经证明了这一点，该模型几乎完全在 4chan 板块上进行微调。你没听错。我相信目前的 Gemma 4 微调模型已经很有前景，最著名的是 MeroMero，它有 https://huggingface.co/zerofata/G4-MeroMero-31B 和 26B-A4B 版本；Equinox，由 Latitude Games 训练，用于其闭源的 AI Dungeon 网站（但他们以开放权重发布，这非常重要）；以及疯狂的 Gembrain 合并，它本不打算成功，但确实成功了。所有这些都受到了高度赞扬，而且它们还只是所有可能性的开始。我认为这非常令人印象深刻，我为这些模型感到非常自豪。我不喜欢的是，人们不断抱怨缺乏计算资源来运行更好的模型（由于内存价格或企业政治等原因），然后又因为 yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF 不费吹灰之力就跃居 HF 第一模型而愤怒（别担心，我也讨厌它）。我直说：纯粹抱怨只会浪费时间。不幸的事实是，只有那些拥有更多计算资源的人才能为计算资源较少的人制作模型，这样后者才有理由不向 Anthropic 或其他公司付费使用 LLM。改进模型需要计算资源丰富的人，我知道有很多人能够并且愿意这样做。我不是 AI 界的毛泽东，要求下一个 Opus 4.8 在下周以内不到 500 亿参数发布。我只是希望，人们对改进 LLM 的兴趣并不会因为仍然有人相信再来一次 Mistral 合并就能最终阻止 Elaran't 反复张嘴闭嘴而停滞。不过，我想如果你不想微调，而让你的 4x3090 机器在 Qwen3.6 27B FP16 上推理……那也完全没问题。我并不是想无礼——这只是我的诚实观点，Gemma 4 处于开放权重微调的良好位置。欢迎分享你的想法或担忧，我会尽力回应。我只想看到人类之间进行一次积极、乐观的讨论。还有，我不是 LLM :)

查看原文

Gemma 4 有一天会成为下一个 Mistral（或 Qwen3.6）吗？关于微调不足的问题。

相似文章

Gemma 4 12B 是我的新主力

喜欢 Gemma4 模型的朋友们——你们都是怎么用的？

Gemma 4 31B 的能力让我惊讶

Gemma 4 QAT 确认即将发布！

Gemma 4 26b 为何不受关注？

提交意见反馈