人工智能辅助文化遗产传播：在岩画文档中比较NMT与术语表增强的LLM翻译

arXiv cs.CL 2026/05/15 04:00 论文

machine-translation cultural-heritage rock-art terminology llm nmt glossary-augmented

摘要

比较了DeepL、使用基本提示的Gemini以及使用术语表增强提示的Gemini在岩画西班牙语-英语术语翻译中的表现，发现术语表增强提示达到了最高的术语准确率（81.4%）。

arXiv:2605.14679v1 Announce Type: new \nAbstract: 文化遗产机构越来越多地在全球范围内传播研究和解读材料，但多语言传播受到有限预算和人员的限制。在岩画等术语密集型领域，翻译质量取决于准确、一致的专业术语，微小的词汇错误可能会误导非专业人士并降低材料的重复利用率。我们针对一篇西班牙语学术岩画文本，比较了三种英语机器翻译设置，重点关注简单、操作可行的干预措施，而非复杂的模型端修改：（1）DeepL作为强NMT基线；（2）Gemini-Simple（使用基本提示的LLM）；（3）Gemini-RAG（同一LLM，通过术语对检索进行术语表增强提示）。利用PEARMUT，我们通过（i）多维度直接评估（0-100分）和（ii）使用受限MQM分类法的针对性术语审计进行了人工评估。Gemini-RAG取得了最高的精确匹配术语准确率（81.4%），相比之下Gemini-Simple为69.1%，DeepL为64.4%，同时保持了整体质量（平均DA得分：Gemini-RAG为85.3，Gemini-Simple为85.2），优于DeepL（80.3）。这些结果表明，如果机构维护了最低限度的术语资源和轻量级评估流程，术语表增强提示是一种低开销的方式，用于提高文化遗产翻译中的术语控制。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:23

# 人工智能辅助文化遗产传播：岩画文献中NMT与词汇表增强型LLM翻译的比较
来源：https://arxiv.org/html/2605.14679
Maria Ferre-Fernández 阿尔梅里亚大学 [email protected]

###### 摘要

文化遗产机构越来越多地面向全球传播研究及阐释材料，但多语言传播受限于有限的预算和人力。在岩画等术语密集领域，翻译质量取决于专业术语的准确性与一致性，微小的词汇错误可能误导非专业人士并降低复用价值。我们针对一份西班牙语学术岩画文本，比较了三种英文机器翻译（MT）配置，聚焦于简单、操作性强的干预措施而非复杂的模型端修改：（1）以DeepL作为强NMT基线，（2）Gemini-Simple（采用基础提示的大语言模型），以及（3）Gemini-RAG（同一LLM通过术语对检索实现词汇表增强提示）。借助PEARMUT工具，我们通过（i）多路直接评估（0–100分）和（ii）基于受限MQM分类法的针对性术语审计，进行了人工评估。Gemini-RAG在术语精确匹配准确率（81.4%）上最高，而Gemini-Simple为69.1%，DeepL为64.4%；同时整体质量保持稳定（Gemini-RAG平均DA评分85.3，Gemini-Simple为85.2），且优于DeepL（80.3）。这些结果表明，只要机构维护最低限度的术语资源和轻量化评估程序，词汇表增强提示是一种低开销、可提升文化遗产翻译术语控制的方法。

## 1 引言

数字基础设施扩大了文化遗产学术与阐释的传播范围，但多语言访问仍不均衡。大型平台（如Europeana及相关倡议）已明确探索将机器翻译（MT）作为扩大多语言访问遗产元数据与内容的途径，这反映了机构在翻译预算未相应增长的情况下，提升可访问性的压力[33 (https://arxiv.org/html/2605.14679#bib.bib44)]。文化遗产也出现在全球可持续发展议程中，包括SDG目标11.4（“保护和捍卫世界文化和自然遗产”），这进一步强化了传播与可访问性的社会价值[50 (https://arxiv.org/html/2605.14679#bib.bib55),46 (https://arxiv.org/html/2605.14679#bib.bib10)]。

在此背景下，岩画传播对MT提出了尤为严峻的挑战。岩画记录与阐释依赖于专业词汇[19 (https://arxiv.org/html/2605.14679#bib.bib31),51 (https://arxiv.org/html/2605.14679#bib.bib59)]。在岩画传播中，翻译错误可能构成关键问题：一个误译的母题标签或一个不一致的年代文化分类术语，可能扭曲阐释、降低信任，尤其是在译文被用于教育、推广或索引时。

近年来大型语言模型（LLM）的兴起改变了MT格局[8 (https://arxiv.org/html/2605.14679#bib.bib26)]。LLM在简单指令下通常能生成流畅的译文[24 (https://arxiv.org/html/2605.14679#bib.bib14),32 (https://arxiv.org/html/2605.14679#bib.bib21)]，但专业接受度往往取决于对这些技术的控制——尤其是在专业领域的术语准确性与一致性（参见Briva-Iglesias等人在法律翻译中的研究[4 (https://arxiv.org/html/2605.14679#bib.bib22)]）。术语控制（例如NMT的词法约束解码）在MT研究中已有悠久历史[30 (https://arxiv.org/html/2605.14679#bib.bib43),47 (https://arxiv.org/html/2605.14679#bib.bib52)]。

对于LLM而言，“控制”通常表现为提示策略或通过外部资源（如词典或词汇表）增强生成[34 (https://arxiv.org/html/2605.14679#bib.bib45)]。一种实用且日益普遍的方法是检索增强生成（RAG），即检索相关上下文并注入提示以引导输出[38 (https://arxiv.org/html/2605.14679#bib.bib46)]。本文针对AI辅助的遗产传播工作流，提出两个总体研究问题：

- •**RQ1**：对于一份术语密集的岩画文本，在整体翻译质量上，LLM基线及词汇表增强型LLM与强商业NMT基线相比如何？
- •**RQ2**：轻量级词汇表增强是否可测量地提升了术语准确性（与首选英文形式的精确匹配）并减少了术语错误类型（错误/缺失/不一致），由专业标注员判断？

为回答这些问题，我们利用PEARMUT[53 (https://arxiv.org/html/2605.14679#bib.bib61)]进行了小规模人工评估，将多路直接评估（DA）风格的质量评分与基于受限MQM分类法的针对性术语评估相结合。然后我们从可部署性角度解读结果：为通过AI语言技术在文化遗产传播中实现有意义的术语控制收益，最少需要哪些资源。

## 2 背景与相关工作

专业翻译既需要将词汇从一种语言传递到另一种语言，也需要通过语言和概念上恰当的形式来调解领域特定知识。在术语学与翻译研究中，术语通常被视为专业话语的组织原则，进而也是专业翻译的核心组成部分[9 (https://arxiv.org/html/2605.14679#bib.bib12),10 (https://arxiv.org/html/2605.14679#bib.bib13),45 (https://arxiv.org/html/2605.14679#bib.bib50),49 (https://arxiv.org/html/2605.14679#bib.bib54)]。术语嵌入在概念系统中，而非作为孤立的词汇单元运作，这意味着专业领域的翻译问题往往源于知识结构、学科惯例与首选用法之间的错配，而非单纯的语言问题[10 (https://arxiv.org/html/2605.14679#bib.bib13),20 (https://arxiv.org/html/2605.14679#bib.bib32),41 (https://arxiv.org/html/2605.14679#bib.bib49)]。

这些问题在文化遗产领域尤为凸显。与高度标准化的科学与技术领域类似，文化遗产传播往往融合了专业描述、阐释、机构调解与面向公众的普及。然而，遗产语境下的翻译还受到成本、时间和空间限制等实际约束的影响，特别是在多语言服务必须适应固定标签格式或平台特定要求时[27 (https://arxiv.org/html/2605.14679#bib.bib38),39 (https://arxiv.org/html/2605.14679#bib.bib47)]。与此同时，遗产机构日益需要大规模跨语言传播内容。Europeana Translate便是这一趋势的明显例证，它已探索将MT作为增加文化遗产资源多语言可访问性的途径[33 (https://arxiv.org/html/2605.14679#bib.bib44)]。

文化遗产保护与记录方面的其他术语倡议，包括与FISH和Getty相关的资源，以及更广泛的AI与文化遗产保护研究，表明结构化术语已被视为描述、记录和访问所必需的基础设施[15 (https://arxiv.org/html/2605.14679#bib.bib28),22 (https://arxiv.org/html/2605.14679#bib.bib35),23 (https://arxiv.org/html/2605.14679#bib.bib34),25 (https://arxiv.org/html/2605.14679#bib.bib37),26 (https://arxiv.org/html/2605.14679#bib.bib36)]。然而，这些资源往往是碎片化的，多语言覆盖不均衡，或难以在翻译工作流中直接操作化。因此，机构通常依赖“足够好”且风险可控的多语言传播策略，而非完全标准化的端到端解决方案[33 (https://arxiv.org/html/2605.14679#bib.bib44)]。

在更广阔的文化遗产景观中，岩画提供了一个特别具有揭示性的测试案例。岩画学术研究依赖于对母题、技法、表面和记录实践的描述性术语，同时也依赖于解释性分类和年代文化标签，这些标签可能具有历史层次、理论争议，并受当地研究传统影响[52 (https://arxiv.org/html/2605.14679#bib.bib5),43 (https://arxiv.org/html/2605.14679#bib.bib3)]。这使得岩画术语对翻译异常敏感。现场记录与分析日益依赖数字方法和增强工具，数字考古学进一步扩大了岩画文献在研究与传播语境中的可见性和复用价值[19 (https://arxiv.org/html/2605.14679#bib.bib31),51 (https://arxiv.org/html/2605.14679#bib.bib59)]。在此类情境下，术语错误并非小事：它们可能曲解考古内容，迷惑非专业读者，并削弱跨库及遗产平台间的索引与检索功能[42 (https://arxiv.org/html/2605.14679#bib.bib4)]。问题是，即使是岩画领域本身，其术语也并非完全稳定。Chippindale[14 (https://arxiv.org/html/2605.14679#bib.bib27)]指出了缺乏标准化术语的问题，甚至对将某些标记称为“art”提出质疑；而Mazel、Nash和Waddington[43 (https://arxiv.org/html/2605.14679#bib.bib3)]同样指出关键词汇单元缺乏国际共识。这种不稳定性使得术语支持资源尤为宝贵。现有的词汇表和参考资源展示了该领域为专业人士和更广泛受众持续巩固和澄清术语的努力（Bednarik, 2003, 2010, 2026; Bradshaw Foundation, n.d.; Research Laboratories of Archaeology, n.d.; Sabo and Sabo, 2006; Scottish Rock Art Project, 2021）。

在此背景下，评估用于岩画传播的MT需要超越一般的流畅度评估，必须明确关注术语控制。在NMT中，术语约束已被广泛研究，特别是通过词法约束解码，这表明强制使用用户指定术语是可行的但并非易事[30 (https://arxiv.org/html/2605.14679#bib.bib43),47 (https://arxiv.org/html/2605.14679#bib.bib52)]。在基于LLM的翻译中，控制更多通过提示和外部词汇资源增强而非解码层约束来实现[24 (https://arxiv.org/html/2605.14679#bib.bib14)]。近期的研究表明，基于词典和词汇表的增强可以通过将结构化词汇引导注入提示，改善罕见或专业项目的翻译[34 (https://arxiv.org/html/2605.14679#bib.bib45)]。检索增强生成（RAG）为此类干预提供了更广泛的框架，允许动态检索相关外部信息并在生成时提供，无需重新训练模型[38 (https://arxiv.org/html/2605.14679#bib.bib46)]。对于术语敏感的遗产工作流而言，这尤其具有吸引力，因为它提供了一种轻量级且操作上可行的方式来增强词汇控制。

问题因此转向如何评估此类收益，鉴于翻译质量评估本身就是一个复杂问题[48 (https://arxiv.org/html/2605.14679#bib.bib7)]，而在这类专业领域，评估只会更加复杂。人工评估仍是MT质量评估中最具信息量的方法[36 (https://arxiv.org/html/2605.14679#bib.bib20)]，尽管实际约束常常导致过度依赖自动指标[29 (https://arxiv.org/html/2605.14679#bib.bib42)]。直接评估（DA）已被广泛用于通过连续人工判断捕获整体翻译质量[28 (https://arxiv.org/html/2605.14679#bib.bib41)]，而MQM提供了用于诊断特定错误类型（包括术语相关问题）的结构化框架[35 (https://arxiv.org/html/2605.14679#bib.bib8)]。最近，PEARMUT被提出作为一个轻量级平台，用于实现DA、错误跨度标注和MQM风格评估协议，设置开销较低（Zouhar和Kocmi, 2026）。对于本研究，这种组合尤为相关。在岩画等领域，一段翻译可能在整体上流畅且恰当，但仍未能遵循首选术语。因此，将整体评估（基于DA）与针对性术语审计（基于MQM）相结合的方法论，比单独使用任一方法更能适应实际问题。这正是本文所填补的空白：不在于AI系统能否生成流畅的遗产文本英文翻译，而在于轻量级词汇表增强能否在词汇精度、一致性和阐释信任至关重要的领域中改善术语控制。

## 3 材料

### 3.1 源文本与词汇表

源材料是一份分为91个句段的西班牙语学术岩画文本，总计1,743个西班牙语单词。该文本摘自已发表的论文《Rock Art Research》[17 (https://arxiv.org/html/2605.14679#bib.bib30)]。文本包含复杂的专业岩画术语。我们依据原文标点进行句级切分：句段足够短，便于可靠的比较判断，同时保持局部话语连贯性。

我们还使用了一个包含200个西班牙语-英语首选术语对的双语词汇表，作为词汇表增强提示和术语评估的术语资源。对于针对性术语评估，我们将分析限制在源文本中实际出现的词汇表术语：44个不同的预期英文术语，在91个句段中共出现194次。我们还在词汇表中加入了无关术语，以增加检索内容的噪声，并评估各MT系统的表现。该词汇表由一位作者根据修订材料中的良好实践建议创建。

### 3.2 比较的系统

我们针对同一份西班牙语句段，比较了三种英文MT配置：首先，以DeepL作为NMT基线。这是一个商业NMT系统，在翻译时（2026年3月）通过API访问，选择“经典语言模型”（NMT）而非“下一代语言模型”（LLM）[18 (https://arxiv.org/html/2605.14679#bib.bib29)]。

其次，我们使用gemini-3.1-pro-preview，配置称为“Gemini-Simple”。这是我们的LLM基线，通过API访问，温度参数设为1。虽然传统上偏好较低温度（如0或0.2）以最大化确定性，但我们故意保留了默认温度1。这一决定作为RAG干预的稳健压力测试：如果我们给予模型完全的生成可变性，就能评估轻量级提示增强是否足够强大以覆盖LLM固有的词汇流动性。Gemini-Simple使用商业LLM系统，带有一个最小提示（“将以下文本从西班牙语翻译成英语”），没有明确的术语指导，并参考Jiao等人[32 (https://arxiv.org/html/2605.14679#bib.bib21)]的建议；该模型在撰写本文时（2026年3月）于LMArena排名第三[13 (https://arxiv.org/html/2605.14679#bib.bib6)]，表明它是一个前沿模型。

人工智能辅助文化遗产传播：在岩画文档中比较NMT与术语表增强的LLM翻译

相似文章

SPLIT：英乌克兰跨语言同理心与文化根基的LLM响应评估

GlossAssist —— 一款简化语料库创建并研究NLP模型在低资源语言记录环境中效果的工具

论使用LLM处理专业术语：语料库的良好替代方案？

面向文化图像描述的长上下文检索增强翻译：Gators在AmericasNLP 2026共享任务中的提交

跨语言共识：通过多语言自一致性对齐多语言文化知识

提交意见反馈