关于 TranslateGemma-12b 基准测试文章的跟进：人工审核发现 71% 被自动指标评为合格的片段存在错误

Reddit r/LocalLLaMA 2026/05/12 10:41 新闻

machine-translation benchmark human-evaluation llm translate-gemma metrics

摘要

对 TranslateGemma-12b 翻译结果的人工审核显示，71% 被自动指标评定为合格的片段实际上存在错误，凸显了仅依赖自动指标评估多语言翻译质量时的显著不足。

几周前，我在这里[分享了某项基准测试的结果](https://www.reddit.com/r/LocalLLaMA/comments/1sl5k6d/we_benchmarked_translategemma12b_against_5/)，结果显示 TranslateGemma-12b 在6种语言的字幕翻译任务中击败了前沿通用大模型（Claude Sonnet、GPT-5.4、DeepSeek、Gemini Flash Lite）。这一结果相当亮眼，以至于我们想亲自验证一下——TranslateGemma 真的有那么好吗？还是说自动指标对它太过宽容？于是，我们加入了一层人工审核环节。 **设置**：从一部教学视频中选取了21个英文字幕片段。将 TranslateGemma 的翻译目标设为4种语言（ES、JA、TH、ZH-CN，韩语和繁体中文已剔除）。共84条翻译结果，全部因为它们在各项自动指标上得分较高而被选中。随后，我们将每条翻译都送去了人工 MQM 审核。根据面板自带的红色预警阈值（`MX ≥ 5 OR CK < 0.70`）： ||自动标记|人工标记（任意）|人工标记（严重）| |:-|:-|:-|:-| |ES|0/21|11/21|2/21| |JA|0/21|17/21|3/21| |TH|0/21|17/21|5/21| |ZH-CN|1/21|15/21|3/21| |**总计**|**1/84 (1.2%)**|**60/84 (71%)**|**13/84 (15%)**| 人类审核员共发现25处准确性类错误（误译、漏译、增译、未翻译），而所有错误都落在了自动指标盲区。在此样本中，自动指标未能捕捉到任何准确性错误。各语言的具体表现差异如下： * **日语**：呈现“流畅但语义偏差”模式——COMETKiwi 得分很高（均值0.86），MetricX 表现尚可，但数据集中的15处误译里，有10处发生在日语上。在最初的报告中，我们就已经在 Claude Sonnet 4.6 的日语翻译中观察到过类似模式（TQI 0.5364，MetricX 3.90，COMETKiwi 0.79 ——读起来很地道，但偏离了原文含义）。看来这种故障模式在不同模型家族针对日语时具有普遍性。 * **泰语**：过度生成问题明显——出现5处准确性/增译错误，即模型插入了源文中不存在的内容；此外还有大量标点符号错误，主要是受英语句号使用习惯影响，而泰语本身并不这样用句号。 * **西班牙语**：主要为语气不一致（正式与非正式的切换），在这四门语言中实际上是最好处理的。 * **简体中文（ZH-CN）**：总共出现4处严重错误，其中包括被自动指标标出的那一个片段（风格问题——“搭配不地道且风格不当”；人工审核与指标结论一致）。其余3处严重错误包括：另一处风格问题（“直译”）、一处准确性/漏译错误（遗漏了“store”，导致句意改变），以及一处流利度/一致性问题（“ticket”在不同片段中的翻译前后不一致）。注意事项：本次仅为针对单一模型和单一内容集的小规模审计，因此数据仅具参考方向性，而非绝对定论。

查看原文

关于 TranslateGemma-12b 基准测试文章的跟进：人工审核发现 71% 被自动指标评为合格的片段存在错误

相似文章

人类与机器文学翻译中的流畅性与忠实度

在 H200 GPU 上微调 TranslateGemma-4B 以优化英语与威尔士语的双向翻译！

也门语境下后编辑对AI生成翻译的影响：ChatGPT翻译文学散文

真实案例：“不跑在本地的模型就不是你的”——Gemma 4 碾压 ChatGPT 与 Gemini

聚光灯与盲区：机器生成文本检测的评估

提交意见反馈