关于 TranslateGemma-12b 基准测试文章的跟进:人工审核发现 71% 被自动指标评为合格的片段存在错误

Reddit r/LocalLLaMA 新闻

摘要

对 TranslateGemma-12b 翻译结果的人工审核显示,71% 被自动指标评定为合格的片段实际上存在错误,凸显了仅依赖自动指标评估多语言翻译质量时的显著不足。

几周前,我在这里[分享了某项基准测试的结果](https://www.reddit.com/r/LocalLLaMA/comments/1sl5k6d/we_benchmarked_translategemma12b_against_5/),结果显示 TranslateGemma-12b 在6种语言的字幕翻译任务中击败了前沿通用大模型(Claude Sonnet、GPT-5.4、DeepSeek、Gemini Flash Lite)。这一结果相当亮眼,以至于我们想亲自验证一下——TranslateGemma 真的有那么好吗?还是说自动指标对它太过宽容?于是,我们加入了一层人工审核环节。 **设置**:从一部教学视频中选取了21个英文字幕片段。将 TranslateGemma 的翻译目标设为4种语言(ES、JA、TH、ZH-CN,韩语和繁体中文已剔除)。共84条翻译结果,全部因为它们在各项自动指标上得分较高而被选中。随后,我们将每条翻译都送去了人工 MQM 审核。 根据面板自带的红色预警阈值(`MX ≥ 5 OR CK < 0.70`): ||自动标记|人工标记(任意)|人工标记(严重)| |:-|:-|:-|:-| |ES|0/21|11/21|2/21| |JA|0/21|17/21|3/21| |TH|0/21|17/21|5/21| |ZH-CN|1/21|15/21|3/21| |**总计**|**1/84 (1.2%)**|**60/84 (71%)**|**13/84 (15%)**| 人类审核员共发现25处准确性类错误(误译、漏译、增译、未翻译),而所有错误都落在了自动指标盲区。在此样本中,自动指标未能捕捉到任何准确性错误。各语言的具体表现差异如下: * **日语**:呈现“流畅但语义偏差”模式——COMETKiwi 得分很高(均值0.86),MetricX 表现尚可,但数据集中的15处误译里,有10处发生在日语上。在最初的报告中,我们就已经在 Claude Sonnet 4.6 的日语翻译中观察到过类似模式(TQI 0.5364,MetricX 3.90,COMETKiwi 0.79 ——读起来很地道,但偏离了原文含义)。看来这种故障模式在不同模型家族针对日语时具有普遍性。 * **泰语**:过度生成问题明显——出现5处准确性/增译错误,即模型插入了源文中不存在的内容;此外还有大量标点符号错误,主要是受英语句号使用习惯影响,而泰语本身并不这样用句号。 * **西班牙语**:主要为语气不一致(正式与非正式的切换),在这四门语言中实际上是最好处理的。 * **简体中文(ZH-CN)**:总共出现4处严重错误,其中包括被自动指标标出的那一个片段(风格问题——“搭配不地道且风格不当”;人工审核与指标结论一致)。其余3处严重错误包括:另一处风格问题(“直译”)、一处准确性/漏译错误(遗漏了“store”,导致句意改变),以及一处流利度/一致性问题(“ticket”在不同片段中的翻译前后不一致)。 注意事项:本次仅为针对单一模型和单一内容集的小规模审计,因此数据仅具参考方向性,而非绝对定论。
查看原文

相似文章

人类与机器文学翻译中的流畅性与忠实度

arXiv cs.CL

本文利用来自106部小说的130,486个段落,实证研究了文学翻译中流畅性与忠实度之间的权衡,发现人类翻译和Google翻译存在一致的负相关,而TranslateGemma的相关性较弱。

Gemma 4 31B 的能力让我惊讶

Reddit r/LocalLLaMA

一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。