真实案例:“不跑在本地的模型就不是你的”——Gemma 4 碾压 ChatGPT 与 Gemini

Reddit r/LocalLLaMA 模型

摘要

用户记录:闭源模型(GPT-4o→5.3、Gemini)在翻译中文小说时质量下滑并自我审查,而本地 Gemma 4 31B 不仅零审查,翻译质量也全面反超。

一个关于模型退化与审查的小故事。我一直用 AI 追更一本中文小说,逐章翻译阅读。由于角色有隐藏身份,AI 必须根据上下文线索选对名字,还得保持前后一致。我最初可用的模型有 GPT OOS 120B(慢)、Qwen 3 Max 和免费的 ChatGPT 4o。 先试了 GPT OOS 120B,失败:人名混用,甚至凭空造名。换 Qwen 3 Max,好一点,但仍有 20% 错误率,后来还开始被无理由审查(内容并无敏感)。再换免费版 ChatGPT 4o,表现最好:人名全对,翻译质量顶尖。 几个月后,GPT 升到 5.2,开始 20% 报错;再升到 5.3,A/B 测试结束,官方把更差的那一版全量推送,表现直接跌回当年 Qwen 3 Max 的水平。 这让我好奇:如今本地模型的翻译到底怎样?结果大吃一惊——Gemma 4 31B 把闭源们按在地上摩擦,质量直逼巅峰 4o。我把同一章、同一提示词重跑一遍,结果如下: |模型|结果|备注| |:-|:-|:-| |GPT OOS 120B|失败|人名合并| |Qwen 3 Max|失败(审查)|写得还行,但触发审查被自动删除| |Qwen 3.6 Plus|失败(审查)|文笔不错,仍被审查删稿| |ChatGPT 5.3|失败|人名选错,翻译腔重| |Gemma 4 31B|通过|翻译自然,速度快| |Qwen 3.5 27B|部分通过|接近 Gemma 4,但代词搞错(把小姐叫成大人)| |Gemini Chat|部分通过|居然比 Gemma 4 差,代词同样出错| 写帖过程中顺手跑的分,Gemma 4 用 Q4 量化就能碾压 Gemini 和 GPT 5.3——Google 自家旗舰还不如自家开源,活见鬼!
查看原文

相似文章

Gemma 4 31B 的能力让我惊讶

Reddit r/LocalLLaMA

一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。