喜欢 Gemma4 模型的朋友们——你们都是怎么用的?

Reddit r/LocalLLaMA 模型

摘要

一位开发者分享了在本地运行 Gemma4 和 Qwen 进行编程任务的复杂体验,指出了工具集成、循环处理和任务完成方面存在的问题,并向社区寻求更优化的使用策略。

我最近一直在本地运行大语言模型用于编程以及其他任务(例如从图像中提取数据),使用 Qwen3.6 模型时取得了不错的效果。虽然它显然比不上 Sonnet/Opus,但我确实能高效完成不少工作。最近我决定试试 Gemma4,但说实话……表现有些让人失望。我可以以合理的速度运行 31B 的 Q5 量化版和 27B 的 Q8 量化版(我会把 KV cache 保持在 FP16,因为这对它们似乎很重要)。我也尝试过几种不同的 GGUF 量化版本(包括 unsloth 和其他家),但行为模式都很一致;更换过不同的推理后端(ROCM 和 Vulkan),表现也一样。因此我有理由相信这只是模型本身的特性。我个人比较认可的一点是,它们的知识面似乎更广,宏观概念把握得更好。比如当我想讨论开发某款应用的技术方案时,它们的思路比 Qwen 更好。但不幸的是,优点也就到此为止了。 1)我在 Windows 上通过 pi harness 调用它,由于 gitbash 存在很多兼容问题,我直接改用 powershell。有时模型会尝试执行某些在 powershell 中跑不通的操作,然后就……直接放弃了。而 Qwen 则会重试几次并找到变通方法来达成目标。 2)Gemma 在使用外部工具方面简直一塌糊涂。补充说明一下,像 read file 这种基础工具在新模板下还能正常工作,但涉及其他功能就麻烦了……pi harness 引入了 skills 的概念。Gemma 似乎无法理解 searxng-search 实际上是一个 skill 而不是普通工具(两者的调用语法不同)。有时候得反复输入三四次 prompt,才能勉强说服它去阅读说明并尝试调用。 3)一旦遇到复杂或不确定的情况,Gemma 极易陷入重复循环。而且不同于 Qwen,想靠调整 prompt 把它拉出循环非常困难,它们似乎总是不断绕回同一个死结。 4)Gemma 还经常在任务进行到一半时突然停止输出。但看社区的反馈,大家似乎对 Gemma 相当推崇。那么我的问题是——大家平时都是怎么使用它们的?有哪些用法能让它跑得很顺?是我漏掉了什么关键点吗?还是说大家其实仅仅把它当作聊天机器人来用?
查看原文

相似文章

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

Gemma-4微调与部署中的挑战与磨难 [P]

Reddit r/MachineLearning

一个机器学习团队记录了在微调并部署Gemma-4过程中遇到的实际挑战,包括与PEFT、SFTTrainer、DeepSpeed ZeRO-3的不兼容,以及缺乏运行时LoRA服务支持,并提供了每个问题的解决方法。