真实案例：“不跑在本地的模型就不是你的”——Gemma 4 碾压 ChatGPT 与 Gemini

Reddit r/LocalLLaMA 2026/04/21 22:13 模型

gemma-4 translation model-degradation open-source censorship

摘要

用户记录：闭源模型（GPT-4o→5.3、Gemini）在翻译中文小说时质量下滑并自我审查，而本地 Gemma 4 31B 不仅零审查，翻译质量也全面反超。

一个关于模型退化与审查的小故事。我一直用 AI 追更一本中文小说，逐章翻译阅读。由于角色有隐藏身份，AI 必须根据上下文线索选对名字，还得保持前后一致。我最初可用的模型有 GPT OOS 120B（慢）、Qwen 3 Max 和免费的 ChatGPT 4o。先试了 GPT OOS 120B，失败：人名混用，甚至凭空造名。换 Qwen 3 Max，好一点，但仍有 20% 错误率，后来还开始被无理由审查（内容并无敏感）。再换免费版 ChatGPT 4o，表现最好：人名全对，翻译质量顶尖。几个月后，GPT 升到 5.2，开始 20% 报错；再升到 5.3，A/B 测试结束，官方把更差的那一版全量推送，表现直接跌回当年 Qwen 3 Max 的水平。这让我好奇：如今本地模型的翻译到底怎样？结果大吃一惊——Gemma 4 31B 把闭源们按在地上摩擦，质量直逼巅峰 4o。我把同一章、同一提示词重跑一遍，结果如下： |模型|结果|备注| |:-|:-|:-| |GPT OOS 120B|失败|人名合并| |Qwen 3 Max|失败（审查）|写得还行，但触发审查被自动删除| |Qwen 3.6 Plus|失败（审查）|文笔不错，仍被审查删稿| |ChatGPT 5.3|失败|人名选错，翻译腔重| |Gemma 4 31B|通过|翻译自然，速度快| |Qwen 3.5 27B|部分通过|接近 Gemma 4，但代词搞错（把小姐叫成大人）| |Gemini Chat|部分通过|居然比 Gemma 4 差，代词同样出错| 写帖过程中顺手跑的分，Gemma 4 用 Q4 量化就能碾压 Gemini 和 GPT 5.3——Google 自家旗舰还不如自家开源，活见鬼！

查看原文

相似文章

Cerebras上的gemma-4-31B比ChatGPT语音模式更好

Reddit r/LocalLLaMA

声称在Cerebras硬件上运行的Gemma-4-31B模型性能优于ChatGPT的语音模式，并通过Hugging Face Space展示了实时语音交互。

Gemma 4 26b a4b 确实是我尝试过的最适合语言学习和科学查询的模型！

Reddit r/LocalLLaMA

用户报告称，Gemma 4 26b 在语言学习和科学查询方面优于 Qwen 3.5/3.6，尽管在编码任务上稍显逊色，并邀请大家讨论小型 MoE 模型在编码以外的其他用例。

Gemma 4：同等参数规模下能力最强的开源模型

Google DeepMind Blog

Google DeepMind 发布 Gemma 4，这是其迄今为止能力最强的开源模型系列，专为高级推理和智能体工作流设计，在多种参数规模下均实现了极高的智能密度。

谷歌的 Gemma 4 12B 刚刚发布 —— 下面教你如何在 Mac 上本地运行它

Reddit r/artificial

Google 发布了 Gemma 4 12B，这是一款基于 Apache 2.0 开源协议的多模态模型，支持文本、视觉和音频处理，上下文窗口达 256K。本文提供了一份指南，介绍如何在 Mac 上使用 Ollama、LM Studio 或 llama.cpp 本地运行该模型。

Gemma 4 31B 的能力让我惊讶

Reddit r/LocalLLaMA

一位用户分享了轶事发现：Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型，并与 Opus 4.7 能力相当，还突出了一个 Gemma 擅长的基准测试（SciCode）。

提交意见反馈