关于 TranslateGemma-12b 基准测试文章的跟进:人工审核发现 71% 被自动指标评为合格的片段存在错误

Reddit r/LocalLLaMA 新闻

摘要

对 TranslateGemma-12b 翻译结果的人工审核显示,71% 被自动指标评定为合格的片段实际上存在错误,凸显了仅依赖自动指标评估多语言翻译质量时的显著不足。

几周前,我在这里[分享了某项基准测试的结果](https://www.reddit.com/r/LocalLLaMA/comments/1sl5k6d/we_benchmarked_translategemma12b_against_5/),结果显示 TranslateGemma-12b 在6种语言的字幕翻译任务中击败了前沿通用大模型(Claude Sonnet、GPT-5.4、DeepSeek、Gemini Flash Lite)。这一结果相当亮眼,以至于我们想亲自验证一下——TranslateGemma 真的有那么好吗?还是说自动指标对它太过宽容?于是,我们加入了一层人工审核环节。 **设置**:从一部教学视频中选取了21个英文字幕片段。将 TranslateGemma 的翻译目标设为4种语言(ES、JA、TH、ZH-CN,韩语和繁体中文已剔除)。共84条翻译结果,全部因为它们在各项自动指标上得分较高而被选中。随后,我们将每条翻译都送去了人工 MQM 审核。 根据面板自带的红色预警阈值(`MX ≥ 5 OR CK < 0.70`): ||自动标记|人工标记(任意)|人工标记(严重)| |:-|:-|:-|:-| |ES|0/21|11/21|2/21| |JA|0/21|17/21|3/21| |TH|0/21|17/21|5/21| |ZH-CN|1/21|15/21|3/21| |**总计**|**1/84 (1.2%)**|**60/84 (71%)**|**13/84 (15%)**| 人类审核员共发现25处准确性类错误(误译、漏译、增译、未翻译),而所有错误都落在了自动指标盲区。在此样本中,自动指标未能捕捉到任何准确性错误。各语言的具体表现差异如下: * **日语**:呈现“流畅但语义偏差”模式——COMETKiwi 得分很高(均值0.86),MetricX 表现尚可,但数据集中的15处误译里,有10处发生在日语上。在最初的报告中,我们就已经在 Claude Sonnet 4.6 的日语翻译中观察到过类似模式(TQI 0.5364,MetricX 3.90,COMETKiwi 0.79 ——读起来很地道,但偏离了原文含义)。看来这种故障模式在不同模型家族针对日语时具有普遍性。 * **泰语**:过度生成问题明显——出现5处准确性/增译错误,即模型插入了源文中不存在的内容;此外还有大量标点符号错误,主要是受英语句号使用习惯影响,而泰语本身并不这样用句号。 * **西班牙语**:主要为语气不一致(正式与非正式的切换),在这四门语言中实际上是最好处理的。 * **简体中文(ZH-CN)**:总共出现4处严重错误,其中包括被自动指标标出的那一个片段(风格问题——“搭配不地道且风格不当”;人工审核与指标结论一致)。其余3处严重错误包括:另一处风格问题(“直译”)、一处准确性/漏译错误(遗漏了“store”,导致句意改变),以及一处流利度/一致性问题(“ticket”在不同片段中的翻译前后不一致)。 注意事项:本次仅为针对单一模型和单一内容集的小规模审计,因此数据仅具参考方向性,而非绝对定论。
查看原文

相似文章

人类与机器文学翻译中的流畅性与忠实度

arXiv cs.CL

本文利用来自106部小说的130,486个段落,实证研究了文学翻译中流畅性与忠实度之间的权衡,发现人类翻译和Google翻译存在一致的负相关,而TranslateGemma的相关性较弱。

也门语境下后编辑对AI生成翻译的影响:ChatGPT翻译文学散文

arXiv cs.CL

这项发表于arXiv的学术研究考察了ChatGPT-4在阿英文学散文互译中的表现,研究涵盖30名专业译者对AI生成译文的评估与后编辑工作。研究发现,尽管AI显著提升了翻译速度,但在处理文化内涵、文体特征与修辞表达方面,人工后编辑依然不可或缺。研究倡导采用“人机协作”模式,而非追求全自动化。

聚光灯与盲区:机器生成文本检测的评估

arXiv cs.CL

# 聚光灯与盲区:机器生成文本检测的评估 来源:[https://arxiv.org/html/2604.16607](https://arxiv.org/html/2604.16607) ###### 摘要 随着生成式语言模型的兴起,机器生成文本检测已成为一项关键挑战。尽管模型种类繁多,但不一致的数据集、评估指标和评估策略使得模型有效性的比较变得模糊。为此,我们从...