喜欢 Gemma4 模型的朋友们——你们都是怎么用的？

Reddit r/LocalLLaMA 2026/05/09 01:49 模型

gemma local-llm open-source tool-use inference community-feedback

摘要

一位开发者分享了在本地运行 Gemma4 和 Qwen 进行编程任务的复杂体验，指出了工具集成、循环处理和任务完成方面存在的问题，并向社区寻求更优化的使用策略。

我最近一直在本地运行大语言模型用于编程以及其他任务（例如从图像中提取数据），使用 Qwen3.6 模型时取得了不错的效果。虽然它显然比不上 Sonnet/Opus，但我确实能高效完成不少工作。最近我决定试试 Gemma4，但说实话……表现有些让人失望。我可以以合理的速度运行 31B 的 Q5 量化版和 27B 的 Q8 量化版（我会把 KV cache 保持在 FP16，因为这对它们似乎很重要）。我也尝试过几种不同的 GGUF 量化版本（包括 unsloth 和其他家），但行为模式都很一致；更换过不同的推理后端（ROCM 和 Vulkan），表现也一样。因此我有理由相信这只是模型本身的特性。我个人比较认可的一点是，它们的知识面似乎更广，宏观概念把握得更好。比如当我想讨论开发某款应用的技术方案时，它们的思路比 Qwen 更好。但不幸的是，优点也就到此为止了。 1）我在 Windows 上通过 pi harness 调用它，由于 gitbash 存在很多兼容问题，我直接改用 powershell。有时模型会尝试执行某些在 powershell 中跑不通的操作，然后就……直接放弃了。而 Qwen 则会重试几次并找到变通方法来达成目标。 2）Gemma 在使用外部工具方面简直一塌糊涂。补充说明一下，像 read file 这种基础工具在新模板下还能正常工作，但涉及其他功能就麻烦了……pi harness 引入了 skills 的概念。Gemma 似乎无法理解 searxng-search 实际上是一个 skill 而不是普通工具（两者的调用语法不同）。有时候得反复输入三四次 prompt，才能勉强说服它去阅读说明并尝试调用。 3）一旦遇到复杂或不确定的情况，Gemma 极易陷入重复循环。而且不同于 Qwen，想靠调整 prompt 把它拉出循环非常困难，它们似乎总是不断绕回同一个死结。 4）Gemma 还经常在任务进行到一半时突然停止输出。但看社区的反馈，大家似乎对 Gemma 相当推崇。那么我的问题是——大家平时都是怎么使用它们的？有哪些用法能让它跑得很顺？是我漏掉了什么关键点吗？还是说大家其实仅仅把它当作聊天机器人来用？

查看原文

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

喜欢 Gemma4 模型的朋友们——你们都是怎么用的？

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

@svpino：在本地电脑上跑 Hermes 微调版 Gemma 4 或 Qwen 3.5，简直是最佳组合，不试真的会后悔……

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

Gemma-4微调与部署中的挑战与磨难 [P]

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

提交意见反馈