Gemma 4 12B 是我的新主力

Reddit r/LocalLLaMA 模型

摘要

作者分享了从 Qwen 3.6 切换到 Gemma 4 12B(Unsloth Q5_K_XL)进行本地编程的体验,称赞其即插即用的设置、更好的语法准确性以及可控的 VRAM 使用,尽管在速度上略有取舍。

Unsloth Q5\_K\_XL 正式成为我本地编程的主力模型。一开始我用了 Q4\_K\_XL,但发现需要频繁修正语法错误。倒也不是不能用,但有一次我不得不做了 23 处编辑才能解决语法问题。用 Q4 时,我的生成速度大约是 61 t/s,换到 Q5 后降到了 50 t/s,但现在大多数任务都能一次性搞定(不是零样本,我还是得告诉它要构建什么 *眨眼*,说的就是你们,语法和技术洁癖们)。模型文件大小约 8.6GB。为了保持响应速度,我在 llama.cpp 中将上下文窗口限制在 32k,并使用了 Q8 KV 缓存。最终,VRAM 占用大约 15.7 GB,缓存检查点会多占用 1 GB。说实话,32k 对我的工作流来说已经足够了,完全能聚焦在需要完成的具体任务上。如果有人问它是否比 Qwen 3.6 27B(我从来都跑不动)或 35B A3B 更好……对我来说答案是肯定的,原因有几点: * **工具调用让人头疼:** 我必须把 Qwen 的工具调用从 XML 改成 JSON。这导致不一致,而且需要大量折腾聊天模板、llama.cpp 设置和内存管理。 * **Gemma 4 即插即用:** 我只需设置缓存、锁定上下文长度、连接到我的 PI 框架,就能直接用了。我可以编写代码、短篇小说和 HTML 游戏。我还没在 Godot 上测试,但在 Lua 上表现很好,因为我业余喜欢做《赛博朋克 2077》的模组。抱歉了,Qwen,我们不得不分手。请理解,不是你的问题,是我。XOXO
查看原文

相似文章

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

Qwen 3.6 27B 太牛了

Reddit r/LocalLLaMA

一位用户分享了在本地使用 Qwen 3.6 27B 进行复杂研究和编程的积极体验,发现它在职业建议和移民研究方面优于 Gemini Pro,同时也提到 Gemma 4 31B 存在性能问题。