MetaHOPE:一种面向隐喻的评估框架,用于分析机器翻译和大语言模型翻译错误
摘要
MetaHOPE是一个面向隐喻的评估框架,用于分析机器翻译和大语言模型中的翻译错误。该论文提出了一种错误严重性感知的标注框架,并评估了GoogleMT、GPT5.4和Hunyuan-7b等模型在英汉隐喻翻译上的表现。
arXiv:2607.00848v1 公告类型:新
摘要:在这篇观点论文中,我们提出了MetaHOPE,一种面向隐喻翻译评估的错误严重性感知标注框架。隐喻对机器翻译(MT)和自然语言理解与处理(NLU、NLP)构成了挑战,因为它具有语义复杂性、上下文依赖性和文化嵌入性等特征,这些特征可能导致NLP模型出现歧义问题。为了研究最先进的NLP模型在翻译隐喻方面的表现,我们选择了三个代表性系统,即GoogleMT、GPT5.4和Hunyuan-7b,作为神经机器翻译(NMT)模型和大语言模型(LLMs)。我们使用了两个人工标注的隐喻语料库,即VUAMC和PSUCMC,用于英译中和中译英翻译。我们使用的原始语料库是单语的,我们使用MetaHOPE框架进行了错误标注,并生成了人工后编辑的黄金参考译文,作为双语使用的新资源。我们相信,MetaHOPE隐喻翻译标注评估框架、平行语料资源以及对最先进自动翻译模型的错误分析,能够为隐喻翻译研究领域提供帮助并带来启示。我们将在论文被接收后公开共享这些资源。
查看缓存全文
缓存时间: 2026/07/02 05:38
# MetaHOPE:隐喻翻译评估框架——探究开源大语言模型与前沿神经翻译模型 来源:https://arxiv.org/html/2607.00848 Jiahui Liang1, Lifeng Han2,3 1莱顿大学人文学院语言学中心,荷兰 2莱顿大学LIACS,荷兰 3莱顿大学医学中心BDS,荷兰 j\.h\.l\.jiahui@hum\.leidenuniv\.nl — l\.han@lumc\.nl ###### 摘要 在这篇观点论文中,我们提出了MetaHOPE,一种用于评估隐喻翻译的错误严重性感知标注框架。隐喻给机器翻译(MT)和自然语言理解与处理(NLU, NLP)带来了挑战,因为它具有语义复杂性、语境依赖性和文化嵌入性等特征,这些特征可能导致NLP模型出现歧义问题。为了探究最先进的NLP模型在隐喻翻译上的表现,我们选择了三个代表性系统:GoogleMT、GPT5.4和Hunyuan-7b,分别作为神经机器翻译(NMT)模型和大语言模型(LLM)。我们使用了两个人工标注的隐喻语料库,即VUAMC和PSUCMC,用于英译中和中译英任务。我们使用的原始语料库是单语的,我们利用MetaHOPE框架进行了错误标注,并生成了人工后期编辑的金标准参考,作为双语使用的新资源。我们相信,用于隐喻翻译标注的MetaHOPE评估框架、平行语料资源以及对最先进自动翻译模型进行的错误分析,能够为隐喻翻译研究领域提供有益的启示。论文被接收后,我们将公开共享我们的资源。 \setmainfont lmroman10-regular.otf[ BoldFont=lmroman10-bold.otf, ItalicFont=lmroman10-italic.otf, BoldItalicFont=lmroman10-bolditalic.otf ]\setsansfontlmsans10-regular.otf[ BoldFont=lmsans10-bold.otf, ItalicFont=lmsans10-oblique.otf ]\setmonofontlmmono10-regular.otf MetaHOPE:隐喻翻译评估框架——探究开源大语言模型与前沿神经翻译模型 Jiahui Liang1, Lifeng Han2,31莱顿大学人文学院语言学中心,荷兰2莱顿大学LIACS,荷兰3莱顿大学医学中心BDS,荷兰j\.h\.l\.jiahui@hum\.leidenuniv\.nl — l\.han@lumc\.nl ## 1 引言 隐喻在日常话语中无处不在,是一种重要的认知工具,使人们能够通过更具体、更熟悉的经验来理解和交流抽象、复杂且不熟悉的概念。例如,经济指标可能\CJK@punctchar\CJK@uniPunct0”80”9C飙升\CJK@punctchar\CJK@uniPunct0”80”9D或\CJK@punctchar\CJK@uniPunct0”80”9C暴跌\CJK@punctchar\CJK@uniPunct0”80”9D,政府可能\CJK@punctchar\CJK@uniPunct0”80”9C抗击\CJK@punctchar\CJK@uniPunct0”80”9D通货膨胀,谈判可能\CJK@punctchar\CJK@uniPunct0”80”9C陷入僵局\CJK@punctchar\CJK@uniPunct0”80”9D。这些表达借鉴了运动、冲突和空间的具体经验,以传达超越字面语言的含义johnson1980metaphors; smedinga2023metaphors。除了语义复杂性之外,隐喻还与文化紧密交织,其解释通常需要语境意识、社会文化知识和概念推理。因此,它们给机器翻译(MT)以及更广泛的自然语言理解与处理(NLU, NLP)任务带来了挑战。 近年来,神经机器翻译(NMT)和大语言模型(LLM)的进展显著提高了翻译质量,一些系统在通用翻译基准上达到了与人类译者相当的性能kocmi2025findings。然而,这些改进并不一定延伸到隐喻翻译han2026towards。karakanta2025metaphors报告的隐喻翻译准确率仅为64-80%,而wang2024mmte发现约20%的隐喻表达在翻译中无法保持等值。错误的一个主要来源是过度字面翻译,特别是对于习语和搭配等多词表达(MWEs),模型常常无法捕捉其预期的比喻意义mwe-2023-multiword; bhatia2024proceedings; han2024overview。因此,为了更好地理解通用MT性能与隐喻翻译性能之间的差距,有必要系统地分析隐喻翻译错误。此外,现有研究主要关注翻译策略pedersen2017metaphors; zajdel2022catching; li2025mindmachine或翻译质量(如对等性、流畅性、情感效果和真实性)wang2024mmte。然而,细粒度的错误分析仍然有限。karakanta2025metaphors将问题分类为意义、形式和省略,但这种分类相对粗粒度,并且没有涉及严重程度。 为了解决这一差距,本研究将HOPE框架gladkoff2022hope适应于隐喻翻译评估,形成了一个名为MetaHOPE的新框架。HOPE最初是作为多维质量指标(MQM)lommel2014multidimensional; lommel2024multi; gladkoff2025non的轻量级版本开发的,通过更小的错误类别集和基于严重性的评分方案来降低标注复杂性。基于这一设计,我们开发了一个面向隐喻的标注框架,能够系统地识别和评估隐喻翻译错误的严重性。借鉴HOPE,我们的项目开发了一个由五个错误类别组成的面向隐喻的标注框架:影响(Impact)、风格(Style)、误译(Mistranslation)、缺少必要改编(Required Adaptation Missing)以及校对错误(Proofreading Error),并附带一个五级严重性量表。使用该框架,本研究探讨了:研究问题1)不同MT系统会产生哪些类型的隐喻翻译错误?研究问题2)在英译中和中译英两种翻译方向上,错误的频率和严重性在不同系统之间如何变化? 在这篇观点论文中,初步结果显示,我们的人类标注者之间的协议水平为:对于[GoogleMT, GPT-5.4, Hunyuan-LLM-7B],皮尔逊相关系数分别为[0.536, 0.726, 0.333],精确一致性分别为[76.9%, 70.8%, 61.5%]。隐喻翻译错误被证明是翻译错误的主要原因,分别占据三个翻译系统错误比例的[91.7%, 93.8%, 61.8%]。我们进一步对MT错误和有趣的现象进行了定性聚类,分为不同的类别。 ## 2 背景与相关工作 ### 2.1 隐喻与翻译 传统的隐喻翻译侧重于孤立的语言表达或修辞装饰。研究领域包括隐喻的可译性、翻译程序、隐喻替代,以及是否应保留隐喻意象的问题newmark1988textbook; vandenbroeck1981limits。隐喻翻译的解决方案可以是:将隐喻转换为相同/不同的隐喻、明喻、释义或删除toury2012descriptive。 后来,出现了对隐喻理解和翻译的认知转向,强调隐喻翻译应当是源语言到目标语言的概念映射,而不仅仅是词汇层面或风格装饰schaffner2004metaphor; johnson1980metaphors。例如,hong2021cognitive对隐喻翻译的认知视角进行了调查,作者讨论认为,认知方法为跨文化交流提供了洞见,并以英汉和法汉等远距离语言为例。 先前关于隐喻机器翻译的研究,包括wang2024mmte,dorst2023metaphor和karakanta2025metaphors,主要依赖于句子级别的翻译和评估。然而,翻译学者批评了句子级别的MT评估,认为孤立看起来可接受的翻译在考虑更广泛的话语语境时可能变得不恰当或不准确castilho2020context。hong2021cognitive也强调,隐喻翻译应超越逐句映射,并讨论了将认知理论和翻译理论相结合的潜力。 与这一发展一致,在MetaHOPE设计中,我们首先在语境感知的文档级别进行翻译,然后提取翻译后的句子进行标注,并为标注者提供上下文信息。 ### 2.2 语言/领域特定研究 有一些关于隐喻及其翻译的语言或领域特定研究。例如,milenkovic2024influence研究了从塞尔维亚语到英语的翻译对感知隐喻特征(包括隐喻性、质量、贴切性和熟悉度)在源语言和目标语言两侧的影响。该研究涵盖了55个使用“A is B”形式的塞尔维亚隐喻及其英译。 同时,khalifah2022arabic从认知语言学角度进行了阿拉伯语-英语隐喻翻译研究,使用了纳吉布·马哈福兹《米达格胡同》及其英译本的一些证据。 聚焦科学领域,shuttleworth2017studying考察了科普文章中的比喻语言如何在不同的语言中发挥作用,并弥合了隐喻研究与翻译研究之间的差距,特别是在神经生物学和生物技术领域。这项工作挑战了科学语言纯粹是字面语言的观点,认为隐喻是将复杂科学概念传达给公众的关键组成部分。他们开发了新的、理论上细致的程序,以描述译者如何在不同语言和文化背景下导航和适应比喻语言。类似地,smedinga2023metaphors的工作研究了隐喻作为专家与外行公众之间科学交流中理解工具的作用。在我们的工作中,对于MetaHOPE,我们使用了英汉双向研究,并聚焦新闻领域作为概念验证。 ### 2.3 大语言模型在隐喻翻译中的应用 使用大语言模型进行隐喻翻译仍是一个探索不足的领域。wong2025mapping基于1964年至2023年的1023篇出版物,对翻译与口译研究(TIS)中的隐喻研究进行了文献计量分析。他们发现,机器翻译仅占与翻译相关的隐喻研究的0.68%,突显了这一领域的巨大研究空白。 最近的工作已开始探索将大语言模型用于隐喻相关任务。例如,csen2026comparative使用GPT-4o结合少样本提示来检测英译土耳其语HUDOC判决中的概念性法律隐喻,并分析翻译中的概念转变。然而,他们的重点是隐喻识别和概念标记,而不是评估隐喻翻译输出的质量。相比之下,本研究调查了不同MT/LLM系统如何呈现隐喻翻译,并使用隐喻适配的MetaHOPE框架评估翻译质量。 与此同时,一些NLP工作已开始使用大语言模型处理比喻语言翻译。donthi-etal-2025-improving例如,研究了习语翻译,并提出了语义习语对齐方法来改进LLM对非字面表达的处理,发现语义级别的对齐比直接提示方法更好地保留了比喻意义和文化真实性。然而,他们的重点是习语翻译生成,而不是对隐喻翻译质量的系统评估。 与我们工作最相关的是li2025mindmachine。这项工作考察了人类译者、NMT和LLM对隐喻相关词(MRWs)的翻译,结合了翻译产品分析、有声思维协议和质量评估。他们的发现表明,与传统的NMT系统相比,LLM产生的翻译策略更接近人类译者,但在处理新颖隐喻时性能仍然不稳定。然而,他们的分析主要集中在翻译策略和MRW级别的行为上,而不是对隐喻翻译质量的系统评估。相比之下,本研究使用隐喻适配的MetaHOPE框架(专用的错误分类法),在语段级别(附有上下文)调查隐喻翻译输出,分析MT和LLM系统之间的细粒度错误分布。  ## 3 MetaHOPE方法论 如图1 (https://arxiv.org/html/2607.00848#S2.F1) 所示,从左到右、从上到下,MetaHOPE框架的概述包括以下步骤: - •1) 从VUAMC和PSUCMC语料库中进行文本格式化和预处理。此步骤包括a) 纯文本提取,以及b) CSV文件准备,包含单词ID、是否为隐喻、词性、标记位置等信息。我们在图2 (https://arxiv.org/html/2607.00848#A2.F2) 和图3 (https://arxiv.org/html/2607.00848#A2.F3) 中分别展示了中文和英文语料库的示例表格,并进行了相应格式化。 - •2.1) 将两个源文本在完整文档级别进行机器翻译(MT),以保持上下文意识,英译中和中译英,使用三个选定的系统:GoogleMT、GPT5.4和Hunyuan-llm-8b,分别作为最先进NMT系统、大语言模型以及年度WMT共享任务中表现最佳系统的代表kocmi2025findings。 - •2.2) 与2.1并行,我们分别从两个语料库中抽取20个和200个语段,分别作为试点研究和系统测试集。 - •3) a) 手动对齐四个数据集(2 x (20, 200) 语段)与系统翻译输出,以找到英译中和中译英对的平行翻译。b) 手动将目标MT输出中的隐喻相关词(MRWs)与源端隐喻词对齐(更多细节见D.1节 (https://arxiv.org/html/2607.00848#A4.SS1))。 - •4) 对来自两个翻译方向的两组20个语段进行试点研究。利用这些经验讨论隐喻翻译错误标注指南,解决标注者之间的分歧,完善标注策略,为下一阶段的全面开展做准备。 - •5) 对三个MT系统的翻译输出进行更大规模的人工标注,关注隐喻相关错误:a) 为每个翻译方向生成后期编辑的人类参考,b) 生成三个系统的MetaHOPE评分表,以及c) 对错误类型和MT在隐喻翻译中的行为进行定性分析。 关于MetaHOPE中的错误类别,我们将其限制为以下5种类型,而不是HOPE指标最初使用的8种: - •影响 (IMP):过度字面翻译;影响强调的结构性转换。 - •缺少必要改编 (RAM):缺失隐喻的文化或习语改编。 - •误译 (MIS):意义不匹配;对隐喻的误解。 - •风格 (STL):隐喻效果、意象或情感基调的丧失。 - •校对错误 (PRF):生硬或不自然的表达(不反映意义)。 这五个类别的设计原则是基于现有针对隐喻的研究以及它们与原始HOPE类别的映射。HOPE框架定义了八个错误类别。然而,并非所有类别都与隐喻翻译同等相关。根据现有关于隐喻翻译的文献,常见的错误类型包括过度字面翻译、意义不匹配、隐喻(修辞和审美)效果丧失、情感转变、结构变化(例如,根据语态主动/被动交替)
相似文章
基于 MIPVU 框架的 Token 级中文隐喻识别多架构可复现基线
本文利用 MIPVU 框架和 PSU 中文隐喻语料库,建立了用于 Token 级中文隐喻识别的可复现多架构基线。研究比较了 RoBERTa 和 MelBERT 等编码器模型与 Qwen3.5-9B 生成式模型的性能,并开源代码和数据以推动后续研究。
能力的坐标系:用于大语言模型评估的统一MTMM几何框架
这篇知识系统化论文提出了一种用于评估大语言模型的统一多特质多方法(MTMM)几何框架,将不同的指标整合到一个共享的潜在坐标空间中,以解决当前基准测试中的构念效度问题。
基于模型的大规模多语言平行数据质量评估
本文提出了一种基于模型的方法来评估大规模多语言平行数据,将其分解为平行性评估和无参考质量估计,发现没有任何单一的通用指标适用于所有语言方向。
Hy-MT2:一套快速、高效且强大的多语言翻译模型,面向实际应用
Hy-MT2 是腾讯推出的一套快速高效的多语言翻译模型,提供 1.8B、7B 和 30B-A3B 三种尺寸,支持 33 种语言,性能超越此前开源和商业模型。
Mix-MoE:通过混合专家混合提升大语言模型的多语言机器翻译
Mix-MoE提出了一种混合专家混合框架,通过专门的专家组和傅里叶变换增强的路由机制来缓解多语言机器翻译中的参数干扰,相比基线方法取得了显著改进。